Cinq papiers publiés ce jour partagent un même diagnostic : les métriques d'évaluation actuelles sous-estiment systématiquement les défaillances réelles des systèmes. GLIDE (arXiv:2605.31278) attaque le problème par la base — les annotations LLM-as-judge sont biaisées, et combiner PPI++, Stratified PPI et Predict-Then-Debias dans une bibliothèque Python unifiée permet de produire des intervalles de confiance valides tout en réduisant les coûts d'annotation humaine. C'est de l'infrastructure d'éval, pas un benchmark de plus. Pendant ce temps, l'étude contrefactuelle sur les LLMs cliniques (CSS) montre que six modèles frontier classés quasi-identiquement sur les métriques traditionnelles s'inversent complètement dès qu'on mute les cas oncologiques — et tous échouent uniformément sur les changements de statut chirurgical, un angle mort invisible aux métriques de couverture standard. LongDS-Bench enfonce le clou : 68 tâches d'analyse multi-tours sur notebooks Kaggle réels, meilleur score à 48,45%, chute de 47 points entre tours précoces et tardifs. Les erreurs long-horizon représentent 52 à 69% des échecs totaux. Les agents d'analyse de données ne tiennent pas le contexte.
Sur le front de l'entraînement, VeriGate corrige un défaut structurel de GRPO : quand toutes les trajectoires reçoivent la même récompense, le gradient s'effondre. En injectant un Process Reward Model pour assigner du crédit granulaire au niveau token, VeriGate gagne ~20 points de précision sur MATH avec Qwen2.5-Instruct 1.5B et ~12 points sur le 7B. Ce n'est pas une amélioration marginale — c'est un correctif à un problème d'optimisation fondamental dans les pipelines RL actuels pour le raisonnement.
Enfin, l'étude sur la représentation linéaire de la déception synthétique (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) confirme que des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3, et que les représentations de malhonnêteté se consolident en couches profondes. Résultat opérationnel : la surveillance basée sur l'activation est faisable tôt dans le réseau, avant que le comportement ne soit observable en sortie. Pour les équipes travaillant sur l'alignment ou le red-teaming, c'est une direction d'instrumentation concrète.
GLIDE est une bibliothèque Python open-source unifiant les méthodes de prediction-powered inference (PPI++, Stratified PPI, Predict-Then-Debias) pour évaluer les systèmes agentic. Elle combine annotations humaines et jugements LLM en estimations sans biais avec intervalles de confiance valides, réduisant les coûts d'annotation tout en maintenant la précision.
VeriGate étend GRPO en combinant récompenses de vérificateur et supervision au niveau des étapes. La méthode utilise un modèle de récompense de processus (PRM) pour assigner du crédit granulaire aux tokens, évitant l'effondrement du gradient quand toutes les trajectoires reçoivent la même récompense. Sur MATH avec Qwen2.5-Instruct (1.5B/7B), VeriGate améliore la précision de ~20% et ~12% respectivement.
Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.
LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.
Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.