Édition du2026-06-01

Évaluation sous tension : biais d'annotation, effondrement GRPO, et agents qui perdent le fil après 48% de précision

Cinq papiers publiés ce jour partagent un même diagnostic : les métriques d'évaluation actuelles sous-estiment systématiquement les défaillances réelles des systèmes. GLIDE (arXiv:2605.31278) attaque le problème par la base — les annotations LLM-as-judge sont biaisées, et combiner PPI++, Stratified PPI et Predict-Then-Debias dans une bibliothèque Python unifiée permet de produire des intervalles de confiance valides tout en réduisant les coûts d'annotation humaine. C'est de l'infrastructure d'éval, pas un benchmark de plus. Pendant ce temps, l'étude contrefactuelle sur les LLMs cliniques (CSS) montre que six modèles frontier classés quasi-identiquement sur les métriques traditionnelles s'inversent complètement dès qu'on mute les cas oncologiques — et tous échouent uniformément sur les changements de statut chirurgical, un angle mort invisible aux métriques de couverture standard. LongDS-Bench enfonce le clou : 68 tâches d'analyse multi-tours sur notebooks Kaggle réels, meilleur score à 48,45%, chute de 47 points entre tours précoces et tardifs. Les erreurs long-horizon représentent 52 à 69% des échecs totaux. Les agents d'analyse de données ne tiennent pas le contexte.

Sur le front de l'entraînement, VeriGate corrige un défaut structurel de GRPO : quand toutes les trajectoires reçoivent la même récompense, le gradient s'effondre. En injectant un Process Reward Model pour assigner du crédit granulaire au niveau token, VeriGate gagne ~20 points de précision sur MATH avec Qwen2.5-Instruct 1.5B et ~12 points sur le 7B. Ce n'est pas une amélioration marginale — c'est un correctif à un problème d'optimisation fondamental dans les pipelines RL actuels pour le raisonnement.

Enfin, l'étude sur la représentation linéaire de la déception synthétique (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) confirme que des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3, et que les représentations de malhonnêteté se consolident en couches profondes. Résultat opérationnel : la surveillance basée sur l'activation est faisable tôt dans le réseau, avant que le comportement ne soit observable en sortie. Pour les équipes travaillant sur l'alignment ou le red-teaming, c'est une direction d'instrumentation concrète.

Les 5 picks du jour
01
02
03
04
05