Deux signaux convergent aujourd'hui sur la fiabilité des évaluations. D'un côté, FOLIO et MALLS — deux benchmarks de raisonnement logique de référence — contiennent respectivement 39% et 36% d'erreurs dans leurs formalisations FOL. Les scores publiés sur ces datasets depuis des années sont donc partiellement fictifs. La correction proposée permet de récupérer +9 à +22 points sur Gemma 31B, Qwen3-30B et GPT-4o-mini, ce qui signifie que des modèles ont probablement été sous-évalués ou sur-évalués selon la direction des erreurs. De l'autre côté, l'étude géométrique sur LLM-as-Judge quantifie ce que beaucoup soupçonnaient : sur 41 juges LLM et 8 langues indiennes, l'axe d'évaluation des modèles est quasi-orthogonal à celui des humains (87-89° d'écart), et l'accord inter-LLM (r≈0.35) dépasse systématiquement l'accord LLM-humain (r≈0.27-0.32). Utiliser un LLM pour valider un autre LLM mesure une cohérence interne, pas une alignement sur les préférences humaines.
Pendant ce temps, LEAP démontre que la vérification formelle est une sortie de secours crédible pour contourner le problème d'évaluation. En décomposant les preuves mathématiques en sous-objectifs vérifiables par le compilateur Lean, le framework résout les 12 problèmes du Putnam 2025 et atteint 70% sur Lean-IMO-Bench contre moins de 10% pour les LLMs génériques. La vérification n'est pas subjective : le compilateur accepte ou rejette. C'est précisément ce que les benchmarks NLP ne peuvent pas offrir. La question ouverte est de savoir si cette approche se généralise au-delà des domaines formalisables.
Sur les agents, DeskCraft et MedCUA-Bench posent le même diagnostic depuis deux angles différents. GPT-5.4 à 31,6% sur des workflows desktop de plus de 50 étapes, et les meilleurs modèles fermés à 54,2% sur des interfaces cliniques avec les modèles open-source à 2,5% en moyenne : les agents GUI restent loin d'une fiabilité opérationnelle. DeskCraft révèle spécifiquement des faiblesses en clarification proactive — les agents exécutent sans demander — ce qui, dans un contexte médical comme MedCUA-Bench, devient un risque direct. Ces deux benchmarks mesurent des choses différentes mais arrivent à la même conclusion : le long horizon et l'ambiguïté des instructions sont les deux murs actuels.
LEAP est un framework agentic qui permet aux LLMs de générer des preuves formelles vérifiables en Lean. Le système décompose les problèmes complexes en unités plus petites via interaction itérative avec le compilateur Lean. Sur les 12 problèmes du Putnam 2025, LEAP en résout tous les 12 ; sur Lean-IMO-Bench, il atteint 70% de taux de résolution contre <10% pour les LLMs génériques.
Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.
DeskCraft est un benchmark pour agents desktop GUI évaluant des workflows professionnels longs (>50 étapes) en design, vidéo, audio et 3D avec collaboration humain-agent. 18 agents testés sur 538 tâches : GPT-5.4 atteint 31,6% en mode standard et 27,6% en mode interactif. Révèle des faiblesses en clarification proactive et exécution long horizon.
Étude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.
MedCUA-Bench est un benchmark interactif pour évaluer les agents informatiques dans les interfaces cliniques. Il couvre 18 scénarios médicaux sur 10 domaines avec interfaces authentiques. Les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne, révélant un écart majeur avec la fiabilité requise.