Annexe méthodologique - DREAM Extraction Lab

Cette annexe documente le calcul des scores affichés dans la section Comparaison scientifique de l'Extraction Lab. Elle décrit les notations, les formules, les conventions d'implémentation retenues dans DREAM et les références bibliographiques associées.

Version de l'annexe : mai 2026. Cette page décrit le comportement implémenté dans le code courant du projet DREAM.

1. Périmètre des scores conservés

La comparaison principale repose sur des métriques bibliographiquement défendables ou sur une mesure opérationnelle explicite :

Les anciens scores heuristiques maison tels que proxy relevance, visual novelty ou meshy readiness ont été retirés de la comparaison affichée. Ils ne sont pas retenus ici car ils ne reposent pas sur une métrique validée par la littérature.

2. Notation

3. Conventions d'implémentation DREAM

Avant comparaison, DREAM applique une normalisation textuelle légère :

Cette normalisation est une convention d'évaluation du projet. Elle n'altère pas la valeur brute affichée dans les tableaux de comparaison.

4. Gold exact match

Pour chaque champ i, on calcule une variable binaire EM_i valant 1 si la prédiction normalisée correspond exactement à au moins une des références acceptées du gold set, 0 sinon.

EM_i = 1[ normalize(ŷ_i) = normalize(g) pour au moins un g dans G_i ]
Gold Exact Match = (1 / |F|) Σ_{i in F} EM_i

Cette mesure est stricte. Elle est surtout pertinente pour des champs fermés, catégoriels ou faiblement ambigus.

5. Gold exact critical

Même définition que l'exact match, mais restreinte au sous-ensemble C des champs critiques du schéma DREAM.

Gold Exact Critical = (1 / |C|) Σ_{i in C} EM_i

Cette mesure est spécifique au projet DREAM : le choix des champs critiques vient du schéma métier et non d'un benchmark externe.

6. Gold ANLS

DREAM utilise une variante compatible avec la famille de métriques ANLS / ANLS* pour comparer des valeurs textuelles qui tolèrent de petites différences de forme.

NL(ŷ_i, g) = Lev( normalize(ŷ_i), normalize(g) ) / max( |normalize(ŷ_i)|, |normalize(g)| )
ANLS_i(g) = max( 0, 1 - NL(ŷ_i, g) ) si NL(ŷ_i, g) < 0.5, sinon 0
ANLS_i = max_{g in G_i} ANLS_i(g)
Gold ANLS = (1 / |F|) Σ_{i in F} ANLS_i

L'utilisation du maximum sur G_i permet de gérer plusieurs variantes acceptées pour une même référence.

Le seuil 0.5 ci-dessus correspond au comportement standard de la famille ANLS et au calcul implémenté dans DREAM.

7. Gold ANLS critical

Même logique que le score précédent, restreinte aux champs critiques.

Gold ANLS Critical = (1 / |C|) Σ_{i in C} ANLS_i

8. Brier score

Lorsque le modèle fournit une confiance de champ p_i, DREAM mesure la qualité probabiliste de cette confiance avec le Brier score.

BS = (1 / N_conf) Σ_{i=1..N_conf} (p_i - o_i)^2

avec o_i = 1 si le champ est jugé correct selon la règle du gold set du champ, et o_i = 0 sinon.

Plus ce score est bas, meilleure est la calibration probabiliste. S'il n'existe aucune confiance exploitable, le score n'est pas affiché.

9. Expected calibration error (ECE)

DREAM utilise une estimation histogramme simple de l'ECE, avec 5 bins uniformes sur l'intervalle [0,1].

ECE = Σ_{m=1..M} ( |B_m| / N_conf ) * | acc(B_m) - conf(B_m) |

où :

Plus l'ECE est bas, plus la confiance moyenne annoncée est proche de la justesse empirique observée. Comme pour le Brier score, l'ECE est omis si aucune confiance de champ n'est disponible.

10. Latence

La latence n'est pas une métrique de qualité scientifique du contenu extrait. Elle mesure le coût temporel de la stratégie côté backend.

Latency_ms = 1000 * ( t_fin - t_debut )

Cette mesure est utile pour arbitrer qualité versus coût opérationnel, mais elle ne doit pas être interprétée comme un score de validité documentaire.

11. Coût tokens et prix estimé

Quand l'API Gemini renvoie une télémétrie d'usage, DREAM additionne les promptTokenCount, candidatesTokenCount et totalTokenCount sur les appels de comparaison extraction.

Coût estimé = (tokens_entrée / 1e6) * prix_entrée_modèle + (tokens_sortie / 1e6) * prix_sortie_modèle

Le coût affiché dans le laboratoire couvre la comparaison d'extraction uniquement. Il exclut la génération d'image Gemini et la génération 3D Meshy. La base de prix suit la grille officielle Gemini Developer API du modèle configuré.

12. Modes de comparaison

Le mode 2 pipelines correspond au comportement historique du laboratoire. Le mode 3 pipelines ajoute une passe de synthèse 3D texte-only pour tester l'effet d'une reformulation finale dédiée au rendu 3D.

13. Tableau de synthèse

Score Nature Direction d'interprétation Usage
Gold exact match fidélité stricte plus haut = mieux champs fermés ou exacts
Gold ANLS fidélité textuelle tolérante plus haut = mieux champs ouverts, variantes d'écriture
Gold exact critical fidélité stricte sur sous-ensemble critique plus haut = mieux priorisation métier
Gold ANLS critical fidélité tolérante sur sous-ensemble critique plus haut = mieux priorisation métier
Brier score calibration probabiliste plus bas = mieux fiabilité des confiances
ECE calibration probabiliste plus bas = mieux écart moyen confiance / justesse
Latency coût opérationnel plus bas = mieux temps de réponse

14. Références bibliographiques

  1. David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger. ANLS* -- A Universal Document Processing Metric for Generative Large Language Models, 2024. arXiv:2402.03848
  2. Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger. On Calibration of Modern Neural Networks, ICML 2017. arXiv:1706.04599
  3. Vladimir V. Naeini, Gregory Cooper, Milos Hauskrecht. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015. Référence classique pour la formulation ECE citée par Guo et al.
  4. Jianqi Ma, Mingyang Li, Yunjie Li, et al. KIEval: Towards a More Practical Evaluation Metric for Document Key Information Extraction, 2025. arXiv:2503.05488