Édition du2026-06-03

Les benchmarks IA sont cassés — et les preuves formelles progressent pendant que les évaluateurs LLM divergent des humains

Par l'équipe éditoriale

Deux signaux convergent aujourd'hui sur la fiabilité des évaluations. D'un côté, FOLIO et MALLS — deux benchmarks de raisonnement logique de référence — contiennent respectivement 39% et 36% d'erreurs dans leurs formalisations FOL. Les scores publiés sur ces datasets depuis des années sont donc partiellement fictifs. La correction proposée permet de récupérer +9 à +22 points sur Gemma 31B, Qwen3-30B et GPT-4o-mini, ce qui signifie que des modèles ont probablement été sous-évalués ou sur-évalués selon la direction des erreurs. De l'autre côté, l'étude géométrique sur LLM-as-Judge quantifie ce que beaucoup soupçonnaient : sur 41 juges LLM et 8 langues indiennes, l'axe d'évaluation des modèles est quasi-orthogonal à celui des humains (87-89° d'écart), et l'accord inter-LLM (r≈0.35) dépasse systématiquement l'accord LLM-humain (r≈0.27-0.32). Utiliser un LLM pour valider un autre LLM mesure une cohérence interne, pas une alignement sur les préférences humaines.

Pendant ce temps, LEAP démontre que la vérification formelle est une sortie de secours crédible pour contourner le problème d'évaluation. En décomposant les preuves mathématiques en sous-objectifs vérifiables par le compilateur Lean, le framework résout les 12 problèmes du Putnam 2025 et atteint 70% sur Lean-IMO-Bench contre moins de 10% pour les LLMs génériques. La vérification n'est pas subjective : le compilateur accepte ou rejette. C'est précisément ce que les benchmarks NLP ne peuvent pas offrir. La question ouverte est de savoir si cette approche se généralise au-delà des domaines formalisables.

Sur les agents, DeskCraft et MedCUA-Bench posent le même diagnostic depuis deux angles différents. GPT-5.4 à 31,6% sur des workflows desktop de plus de 50 étapes, et les meilleurs modèles fermés à 54,2% sur des interfaces cliniques avec les modèles open-source à 2,5% en moyenne : les agents GUI restent loin d'une fiabilité opérationnelle. DeskCraft révèle spécifiquement des faiblesses en clarification proactive — les agents exécutent sans demander — ce qui, dans un contexte médical comme MedCUA-Bench, devient un risque direct. Ces deux benchmarks mesurent des choses différentes mais arrivent à la même conclusion : le long horizon et l'ambiguïté des instructions sont les deux murs actuels.

Les 5 picks du jour

arXiv cs.AI·SIG 85

LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

LEAP est un framework agentic qui permet aux LLMs de générer des preuves formelles vérifiables en Lean. Le système décompose les problèmes complexes en unités plus petites via interaction itérative avec le compilateur Lean. Sur les 12 problèmes du Putnam 2025, LEAP en résout tous les 12 ; sur Lean-IMO-Bench, il atteint 70% de taux de résolution contre <10% pour les LLMs génériques.

Agents IA Raisonnement Benchmarks

arXiv cs.CL·SIG 82

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

Benchmarks Évaluations Raisonnement

arXiv cs.AI·SIG 82

DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration

DeskCraft est un benchmark pour agents desktop GUI évaluant des workflows professionnels longs (>50 étapes) en design, vidéo, audio et 3D avec collaboration humain-agent. 18 agents testés sur 538 tâches : GPT-5.4 atteint 31,6% en mode standard et 27,6% en mode interactif. Révèle des faiblesses en clarification proactive et exécution long horizon.

Agents IA Benchmarks Évaluations

arXiv cs.CL·SIG 82

The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment

Étude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.

Évaluations Alignement Benchmarks

arXiv cs.AI·SIG 82

MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

MedCUA-Bench est un benchmark interactif pour évaluer les agents informatiques dans les interfaces cliniques. Il couvre 18 scénarios médicaux sur 10 domaines avec interfaces authentiques. Les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne, révélant un écart majeur avec la fiabilité requise.

Agents IA Benchmarks Sécurité IA