Édition du2026-06-03

Les benchmarks IA sont cassés — et les preuves formelles progressent pendant que les évaluateurs LLM divergent des humains

Deux signaux convergent aujourd'hui sur la fiabilité des évaluations. D'un côté, FOLIO et MALLS — deux benchmarks de raisonnement logique de référence — contiennent respectivement 39% et 36% d'erreurs dans leurs formalisations FOL. Les scores publiés sur ces datasets depuis des années sont donc partiellement fictifs. La correction proposée permet de récupérer +9 à +22 points sur Gemma 31B, Qwen3-30B et GPT-4o-mini, ce qui signifie que des modèles ont probablement été sous-évalués ou sur-évalués selon la direction des erreurs. De l'autre côté, l'étude géométrique sur LLM-as-Judge quantifie ce que beaucoup soupçonnaient : sur 41 juges LLM et 8 langues indiennes, l'axe d'évaluation des modèles est quasi-orthogonal à celui des humains (87-89° d'écart), et l'accord inter-LLM (r≈0.35) dépasse systématiquement l'accord LLM-humain (r≈0.27-0.32). Utiliser un LLM pour valider un autre LLM mesure une cohérence interne, pas une alignement sur les préférences humaines.

Pendant ce temps, LEAP démontre que la vérification formelle est une sortie de secours crédible pour contourner le problème d'évaluation. En décomposant les preuves mathématiques en sous-objectifs vérifiables par le compilateur Lean, le framework résout les 12 problèmes du Putnam 2025 et atteint 70% sur Lean-IMO-Bench contre moins de 10% pour les LLMs génériques. La vérification n'est pas subjective : le compilateur accepte ou rejette. C'est précisément ce que les benchmarks NLP ne peuvent pas offrir. La question ouverte est de savoir si cette approche se généralise au-delà des domaines formalisables.

Sur les agents, DeskCraft et MedCUA-Bench posent le même diagnostic depuis deux angles différents. GPT-5.4 à 31,6% sur des workflows desktop de plus de 50 étapes, et les meilleurs modèles fermés à 54,2% sur des interfaces cliniques avec les modèles open-source à 2,5% en moyenne : les agents GUI restent loin d'une fiabilité opérationnelle. DeskCraft révèle spécifiquement des faiblesses en clarification proactive — les agents exécutent sans demander — ce qui, dans un contexte médical comme MedCUA-Bench, devient un risque direct. Ces deux benchmarks mesurent des choses différentes mais arrivent à la même conclusion : le long horizon et l'ambiguïté des instructions sont les deux murs actuels.

Les 5 picks du jour
01
02
03
04
05