Annexe méthodologique - DREAM Extraction Lab

Cette annexe documente le calcul des scores affichés dans la section Comparaison scientifique de l'Extraction Lab. Elle décrit les notations, les formules, les conventions d'implémentation retenues dans DREAM et les références bibliographiques associées.

Version de l'annexe : mai 2026. Cette page décrit le comportement implémenté dans le code courant du projet DREAM.

Retour au laboratoire Référence ANLS* Référence calibration

1. Périmètre des scores conservés

La comparaison principale repose sur des métriques bibliographiquement défendables ou sur une mesure opérationnelle explicite :

Gold exact match
Gold ANLS
Gold exact critical
Gold ANLS critical
Brier score si des confiances de champ sont disponibles
Expected calibration error (ECE) si des confiances de champ sont disponibles
Latency en millisecondes, comme mesure de coût opérationnel

Les anciens scores heuristiques maison tels que proxy relevance, visual novelty ou meshy readiness ont été retirés de la comparaison affichée. Ils ne sont pas retenus ici car ils ne reposent pas sur une métrique validée par la littérature.

2. Notation

F : ensemble des champs annotés dans le gold set pour un document donné.
C ⊆ F : sous-ensemble des champs dits critiques dans DREAM.
G_i = {g_i^1, ..., g_i^k} : ensemble des valeurs de référence acceptées pour le champ i.
ŷ_i : valeur prédite par la stratégie évaluée pour le champ i.
p_i : confiance de champ renvoyée par le modèle, lorsqu'elle existe.
o_i ∈ {0,1} : variable de correction observée pour le champ i.

3. Conventions d'implémentation DREAM

Avant comparaison, DREAM applique une normalisation textuelle légère :

passage en minuscules ;
suppression des accents ;
réduction des espaces multiples ;
comparaison contre plusieurs variantes de référence si elles sont fournies dans le gold set.

Cette normalisation est une convention d'évaluation du projet. Elle n'altère pas la valeur brute affichée dans les tableaux de comparaison.

4. Gold exact match

Pour chaque champ i, on calcule une variable binaire EM_i valant 1 si la prédiction normalisée correspond exactement à au moins une des références acceptées du gold set, 0 sinon.

EM_i = 1[ normalize(ŷ_i) = normalize(g) pour au moins un g dans G_i ]

Gold Exact Match = (1 / |F|) Σ_{i in F} EM_i

Cette mesure est stricte. Elle est surtout pertinente pour des champs fermés, catégoriels ou faiblement ambigus.

5. Gold exact critical

Même définition que l'exact match, mais restreinte au sous-ensemble C des champs critiques du schéma DREAM.

Gold Exact Critical = (1 / |C|) Σ_{i in C} EM_i

Cette mesure est spécifique au projet DREAM : le choix des champs critiques vient du schéma métier et non d'un benchmark externe.

6. Gold ANLS

DREAM utilise une variante compatible avec la famille de métriques ANLS / ANLS* pour comparer des valeurs textuelles qui tolèrent de petites différences de forme.

NL(ŷ_i, g) = Lev( normalize(ŷ_i), normalize(g) ) / max( |normalize(ŷ_i)|, |normalize(g)| )

ANLS_i(g) = max( 0, 1 - NL(ŷ_i, g) ) si NL(ŷ_i, g) < 0.5, sinon 0

ANLS_i = max_{g in G_i} ANLS_i(g)

Gold ANLS = (1 / |F|) Σ_{i in F} ANLS_i

L'utilisation du maximum sur G_i permet de gérer plusieurs variantes acceptées pour une même référence.

Le seuil 0.5 ci-dessus correspond au comportement standard de la famille ANLS et au calcul implémenté dans DREAM.

7. Gold ANLS critical

Même logique que le score précédent, restreinte aux champs critiques.

Gold ANLS Critical = (1 / |C|) Σ_{i in C} ANLS_i

8. Brier score

Lorsque le modèle fournit une confiance de champ p_i, DREAM mesure la qualité probabiliste de cette confiance avec le Brier score.

BS = (1 / N_conf) Σ_{i=1..N_conf} (p_i - o_i)^2

avec o_i = 1 si le champ est jugé correct selon la règle du gold set du champ, et o_i = 0 sinon.

Plus ce score est bas, meilleure est la calibration probabiliste. S'il n'existe aucune confiance exploitable, le score n'est pas affiché.

9. Expected calibration error (ECE)

DREAM utilise une estimation histogramme simple de l'ECE, avec 5 bins uniformes sur l'intervalle [0,1].

ECE = Σ_{m=1..M} ( |B_m| / N_conf ) * | acc(B_m) - conf(B_m) |

où :

B_m est le m-ième bin de confiance ;
acc(B_m) est la proportion moyenne de champs corrects dans ce bin ;
conf(B_m) est la confiance moyenne dans ce bin.

Plus l'ECE est bas, plus la confiance moyenne annoncée est proche de la justesse empirique observée. Comme pour le Brier score, l'ECE est omis si aucune confiance de champ n'est disponible.

10. Latence

La latence n'est pas une métrique de qualité scientifique du contenu extrait. Elle mesure le coût temporel de la stratégie côté backend.

Latency_ms = 1000 * ( t_fin - t_debut )

Cette mesure est utile pour arbitrer qualité versus coût opérationnel, mais elle ne doit pas être interprétée comme un score de validité documentaire.

11. Coût tokens et prix estimé

Quand l'API Gemini renvoie une télémétrie d'usage, DREAM additionne les promptTokenCount, candidatesTokenCount et totalTokenCount sur les appels de comparaison extraction.

Coût estimé = (tokens_entrée / 1e6) * prix_entrée_modèle + (tokens_sortie / 1e6) * prix_sortie_modèle

Le coût affiché dans le laboratoire couvre la comparaison d'extraction uniquement. Il exclut la génération d'image Gemini et la génération 3D Meshy. La base de prix suit la grille officielle Gemini Developer API du modèle configuré.

12. Modes de comparaison

2 pipelines : guidée texte→image versus tout-en-un.
3 pipelines : guidée, guidée + synthèse 3D texte-only, et tout-en-un.

Le mode 2 pipelines correspond au comportement historique du laboratoire. Le mode 3 pipelines ajoute une passe de synthèse 3D texte-only pour tester l'effet d'une reformulation finale dédiée au rendu 3D.

13. Tableau de synthèse

Score	Nature	Direction d'interprétation	Usage
Gold exact match	fidélité stricte	plus haut = mieux	champs fermés ou exacts
Gold ANLS	fidélité textuelle tolérante	plus haut = mieux	champs ouverts, variantes d'écriture
Gold exact critical	fidélité stricte sur sous-ensemble critique	plus haut = mieux	priorisation métier
Gold ANLS critical	fidélité tolérante sur sous-ensemble critique	plus haut = mieux	priorisation métier
Brier score	calibration probabiliste	plus bas = mieux	fiabilité des confiances
ECE	calibration probabiliste	plus bas = mieux	écart moyen confiance / justesse
Latency	coût opérationnel	plus bas = mieux	temps de réponse

14. Références bibliographiques

David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger. ANLS* -- A Universal Document Processing Metric for Generative Large Language Models, 2024. arXiv:2402.03848
Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger. On Calibration of Modern Neural Networks, ICML 2017. arXiv:1706.04599
Vladimir V. Naeini, Gregory Cooper, Milos Hauskrecht. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015. Référence classique pour la formulation ECE citée par Guo et al.
Jianqi Ma, Mingyang Li, Yunjie Li, et al. KIEval: Towards a More Practical Evaluation Metric for Document Key Information Extraction, 2025. arXiv:2503.05488