Annexe méthodologique - DREAM Extraction Lab
Cette annexe documente le calcul des scores affichés dans la section Comparaison scientifique de l'Extraction Lab. Elle décrit les notations, les formules, les conventions d'implémentation retenues dans DREAM et les références bibliographiques associées.
1. Périmètre des scores conservés
La comparaison principale repose sur des métriques bibliographiquement défendables ou sur une mesure opérationnelle explicite :
Gold exact matchGold ANLSGold exact criticalGold ANLS criticalBrier scoresi des confiances de champ sont disponiblesExpected calibration error (ECE)si des confiances de champ sont disponiblesLatencyen millisecondes, comme mesure de coût opérationnel
Les anciens scores heuristiques maison tels que proxy relevance,
visual novelty ou meshy readiness ont été retirés
de la comparaison affichée. Ils ne sont pas retenus ici car ils ne reposent
pas sur une métrique validée par la littérature.
2. Notation
F: ensemble des champs annotés dans le gold set pour un document donné.C ⊆ F: sous-ensemble des champs dits critiques dans DREAM.G_i = {g_i^1, ..., g_i^k}: ensemble des valeurs de référence acceptées pour le champi.ŷ_i: valeur prédite par la stratégie évaluée pour le champi.p_i: confiance de champ renvoyée par le modèle, lorsqu'elle existe.o_i ∈ {0,1}: variable de correction observée pour le champi.
3. Conventions d'implémentation DREAM
Avant comparaison, DREAM applique une normalisation textuelle légère :
- passage en minuscules ;
- suppression des accents ;
- réduction des espaces multiples ;
- comparaison contre plusieurs variantes de référence si elles sont fournies dans le gold set.
Cette normalisation est une convention d'évaluation du projet. Elle n'altère pas la valeur brute affichée dans les tableaux de comparaison.
4. Gold exact match
Pour chaque champ i, on calcule une variable binaire
EM_i valant 1 si la prédiction normalisée correspond exactement à
au moins une des références acceptées du gold set, 0 sinon.
Cette mesure est stricte. Elle est surtout pertinente pour des champs fermés, catégoriels ou faiblement ambigus.
5. Gold exact critical
Même définition que l'exact match, mais restreinte au sous-ensemble
C des champs critiques du schéma DREAM.
Cette mesure est spécifique au projet DREAM : le choix des champs critiques vient du schéma métier et non d'un benchmark externe.
6. Gold ANLS
DREAM utilise une variante compatible avec la famille de métriques ANLS / ANLS* pour comparer des valeurs textuelles qui tolèrent de petites différences de forme.
L'utilisation du maximum sur G_i permet de gérer plusieurs variantes
acceptées pour une même référence.
Le seuil 0.5 ci-dessus correspond au comportement standard de la famille ANLS
et au calcul implémenté dans DREAM.
7. Gold ANLS critical
Même logique que le score précédent, restreinte aux champs critiques.
8. Brier score
Lorsque le modèle fournit une confiance de champ p_i, DREAM mesure
la qualité probabiliste de cette confiance avec le Brier score.
avec o_i = 1 si le champ est jugé correct selon la règle du gold set
du champ, et o_i = 0 sinon.
Plus ce score est bas, meilleure est la calibration probabiliste. S'il n'existe aucune confiance exploitable, le score n'est pas affiché.
9. Expected calibration error (ECE)
DREAM utilise une estimation histogramme simple de l'ECE, avec
5 bins uniformes sur l'intervalle [0,1].
où :
B_mest le m-ième bin de confiance ;acc(B_m)est la proportion moyenne de champs corrects dans ce bin ;conf(B_m)est la confiance moyenne dans ce bin.
Plus l'ECE est bas, plus la confiance moyenne annoncée est proche de la justesse empirique observée. Comme pour le Brier score, l'ECE est omis si aucune confiance de champ n'est disponible.
10. Latence
La latence n'est pas une métrique de qualité scientifique du contenu extrait. Elle mesure le coût temporel de la stratégie côté backend.
Cette mesure est utile pour arbitrer qualité versus coût opérationnel, mais elle ne doit pas être interprétée comme un score de validité documentaire.
11. Coût tokens et prix estimé
Quand l'API Gemini renvoie une télémétrie d'usage, DREAM additionne les
promptTokenCount, candidatesTokenCount et
totalTokenCount sur les appels de comparaison extraction.
Le coût affiché dans le laboratoire couvre la comparaison d'extraction uniquement. Il exclut la génération d'image Gemini et la génération 3D Meshy. La base de prix suit la grille officielle Gemini Developer API du modèle configuré.
12. Modes de comparaison
2 pipelines: guidée texte→image versus tout-en-un.3 pipelines: guidée, guidée + synthèse 3D texte-only, et tout-en-un.
Le mode 2 pipelines correspond au comportement historique du laboratoire. Le mode 3 pipelines ajoute une passe de synthèse 3D texte-only pour tester l'effet d'une reformulation finale dédiée au rendu 3D.
13. Tableau de synthèse
| Score | Nature | Direction d'interprétation | Usage |
|---|---|---|---|
| Gold exact match | fidélité stricte | plus haut = mieux | champs fermés ou exacts |
| Gold ANLS | fidélité textuelle tolérante | plus haut = mieux | champs ouverts, variantes d'écriture |
| Gold exact critical | fidélité stricte sur sous-ensemble critique | plus haut = mieux | priorisation métier |
| Gold ANLS critical | fidélité tolérante sur sous-ensemble critique | plus haut = mieux | priorisation métier |
| Brier score | calibration probabiliste | plus bas = mieux | fiabilité des confiances |
| ECE | calibration probabiliste | plus bas = mieux | écart moyen confiance / justesse |
| Latency | coût opérationnel | plus bas = mieux | temps de réponse |
14. Références bibliographiques
- David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger. ANLS* -- A Universal Document Processing Metric for Generative Large Language Models, 2024. arXiv:2402.03848
- Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger. On Calibration of Modern Neural Networks, ICML 2017. arXiv:1706.04599
- Vladimir V. Naeini, Gregory Cooper, Milos Hauskrecht. Obtaining Well Calibrated Probabilities Using Bayesian Binning, AAAI 2015. Référence classique pour la formulation ECE citée par Guo et al.
- Jianqi Ma, Mingyang Li, Yunjie Li, et al. KIEval: Towards a More Practical Evaluation Metric for Document Key Information Extraction, 2025. arXiv:2503.05488