Justification des notes de l'Extraction Lab
Cette page explique ce que signifient les notes affichees dans le laboratoire, comment elles sont calculees, et pourquoi elles sont retenues comme base de comparaison. L'objectif est de distinguer clairement les mesures defendables scientifiquement des signaux purement exploratoires.
Retour rapide : laboratoire | annexe methodologique complete
1. Principe general
Les notes principales du laboratoire reposent sur un gold set : un document annote manuellement champ par champ, avec des valeurs de reference acceptees. Chaque pipeline produit une valeur predite pour ces memes champs, puis DREAM calcule des scores de fidelite et, quand c'est possible, des scores de calibration.
2. Pourquoi ces notes sont retenues
| Note | Pourquoi elle est retenue | Lecture |
|---|---|---|
Gold exact match |
Mesure stricte de verite terrain sur des champs annotes. | Plus haut = meilleur. |
Gold ANLS |
Mesure tolerante aux petites variations textuelles, adaptee aux sorties generatives documentaires. | Plus haut = meilleur. |
Gold exact critical |
Version metier du score exact, limitee aux variables critiques. | Plus haut = meilleur. |
Gold ANLS critical |
Version metier du score ANLS, limitee aux variables critiques. | Plus haut = meilleur. |
Brier score |
Mesure standard de qualite probabiliste des confiances. | Plus bas = meilleur. |
Expected calibration error |
Mesure standard de l'ecart entre confiance annoncee et exactitude observee. | Plus bas = meilleur. |
Latency |
Cout operationnel, pas une note de verite terrain. | Plus bas = meilleur. |
Ces metriques ne mesurent pas la meme chose. Gold exact mesure la verite stricte,
Gold ANLS la similarite textuelle tolerante, Brier et ECE
la qualite des confidences, et latency le cout operationnel.
3. Detail des calculs
Gold exact match
Pour chaque champ annote i, DREAM teste si la valeur predite
correspond exactement a au moins une variante acceptee de la reference.
Gold ANLS
DREAM calcule une similarite de type ANLS entre la prediction et les valeurs attendues, puis retient la meilleure variante de reference.
Scores critiques
Les variantes critical reprennent exactement les memes calculs,
mais uniquement sur le sous-ensemble des variables marquees critiques dans
le schema DREAM.
Brier score
p_i = confiance annoncee par le pipeline pour un champ.
o_i = 1 si le champ est correct selon sa regle gold, sinon 0.
Expected calibration error
DREAM utilise 5 bins uniformes sur l'intervalle [0,1].
4. Ce que ces notes ne prouvent pas
- Elles ne prouvent pas a elles seules la qualite visuelle finale du 3D.
- Elles ne remplacent pas un benchmark multi-documents avec intervalles de confiance.
- Elles ne couvrent que les variables presentes dans le gold set courant.
- La latence mesure un cout, pas une verite documentaire.