Justification des notes de l'Extraction Lab

Cette page explique ce que signifient les notes affichees dans le laboratoire, comment elles sont calculees, et pourquoi elles sont retenues comme base de comparaison. L'objectif est de distinguer clairement les mesures defendables scientifiquement des signaux purement exploratoires.

Retour rapide : laboratoire | annexe methodologique complete

1. Principe general

Les notes principales du laboratoire reposent sur un gold set : un document annote manuellement champ par champ, avec des valeurs de reference acceptees. Chaque pipeline produit une valeur predite pour ces memes champs, puis DREAM calcule des scores de fidelite et, quand c'est possible, des scores de calibration.

\[ \text{Pipeline} \rightarrow \text{valeurs predites} \rightarrow \text{comparaison au gold set} \rightarrow \text{notes} \]

2. Pourquoi ces notes sont retenues

Note	Pourquoi elle est retenue	Lecture
`Gold exact match`	Mesure stricte de verite terrain sur des champs annotes.	Plus haut = meilleur.
`Gold ANLS`	Mesure tolerante aux petites variations textuelles, adaptee aux sorties generatives documentaires.	Plus haut = meilleur.
`Gold exact critical`	Version metier du score exact, limitee aux variables critiques.	Plus haut = meilleur.
`Gold ANLS critical`	Version metier du score ANLS, limitee aux variables critiques.	Plus haut = meilleur.
`Brier score`	Mesure standard de qualite probabiliste des confiances.	Plus bas = meilleur.
`Expected calibration error`	Mesure standard de l'ecart entre confiance annoncee et exactitude observee.	Plus bas = meilleur.
`Latency`	Cout operationnel, pas une note de verite terrain.	Plus bas = meilleur.

Ces metriques ne mesurent pas la meme chose. Gold exact mesure la verite stricte, Gold ANLS la similarite textuelle tolerante, Brier et ECE la qualite des confidences, et latency le cout operationnel.

3. Detail des calculs

Gold exact match

Pour chaque champ annote i, DREAM teste si la valeur predite correspond exactement a au moins une variante acceptee de la reference.

\[ EM_i= \begin{cases} 1 & \text{si } y_i \in G_i \\ 0 & \text{sinon} \end{cases} \qquad \mathrm{GoldExact}=\frac{1}{|F|}\sum_{i \in F} EM_i \]

Gold ANLS

DREAM calcule une similarite de type ANLS entre la prediction et les valeurs attendues, puis retient la meilleure variante de reference.

\[ \mathrm{NL}(y_i,g)=\frac{d_{\mathrm{lev}}(y_i,g)}{\max(|y_i|,|g|)} \] \[ \mathrm{ANLS}_i(g)= \begin{cases} 1-\mathrm{NL}(y_i,g) & \text{si } \mathrm{NL}(y_i,g) < 0.5 \\ 0 & \text{sinon} \end{cases} \] \[ \mathrm{GoldANLS}=\frac{1}{|F|}\sum_{i \in F}\max_{g \in G_i}\mathrm{ANLS}_i(g) \]

Scores critiques

Les variantes critical reprennent exactement les memes calculs, mais uniquement sur le sous-ensemble des variables marquees critiques dans le schema DREAM.

Brier score

\[ \mathrm{Brier}=\frac{1}{N}\sum_{i=1}^{N}(p_i-o_i)^2 \]

p_i = confiance annoncee par le pipeline pour un champ. o_i = 1 si le champ est correct selon sa regle gold, sinon 0.

Expected calibration error

\[ \mathrm{ECE}=\sum_{m=1}^{M}\frac{|B_m|}{N}\left|\mathrm{acc}(B_m)-\mathrm{conf}(B_m)\right| \]

DREAM utilise 5 bins uniformes sur l'intervalle [0,1].

4. Ce que ces notes ne prouvent pas

Elles ne prouvent pas a elles seules la qualite visuelle finale du 3D.
Elles ne remplacent pas un benchmark multi-documents avec intervalles de confiance.
Elles ne couvrent que les variables presentes dans le gold set courant.
La latence mesure un cout, pas une verite documentaire.