Semaine du2026-06-01

Semaine du 1er juin 2026 : l'évaluation en crise, les agents à l'épreuve du long horizon

Par l'équipe éditoriale

Le thème dominant de cette semaine n'est pas une annonce de modèle mais une remise en question systémique de la façon dont le champ mesure ses propres progrès. Trois papiers convergent vers le même diagnostic : nos métriques d'évaluation sont structurellement biaisées. L'étude géométrique sur LLM-as-Judge (arXiv:2606.03043) quantifie ce que beaucoup soupçonnaient : sur 41 juges LLM et 8 langues indiennes, l'axe d'évaluation des modèles est quasi-orthogonal à celui des humains (87-89° d'écart), et le consensus inter-LLM (r≈0.35) dépasse systématiquement l'alignement LLM-humain (r≈0.27-0.32). En parallèle, l'audit de FOLIO et MALLS révèle 39% et 36% d'erreurs dans les formalisations FOL de ces benchmarks de référence — des benchmarks sur lesquels des dizaines de papiers ont été publiés. La conséquence pratique est sévère : les classements de modèles sur ces corpus sont partiellement fictifs, et les gains de +9 à +22 points observés après correction sur Gemma 31B, Qwen3-30B et GPT-4o-mini ne reflètent pas une amélioration des modèles mais une correction des données de test. L'évaluation contrefactuelle clinique (CSS) enfonce le clou : six modèles de frontier classés similairement sur les métriques traditionnelles s'inversent complètement sur la capacité à adapter des recommandations oncologiques face à des mutations de cas, avec un angle mort universel sur les changements de statut chirurgical.

Le deuxième thème structurant est l'échec documenté des agents sur les tâches longues. LongDS-Bench (68 tâches, 2 225 tours issus de notebooks Kaggle réels) plafonne les meilleurs modèles à 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs — les erreurs long-horizon représentent 52 à 69% des échecs totaux. DeskCraft confirme la tendance sur les workflows professionnels GUI : GPT-5.4, le meilleur agent testé sur 538 tâches en design, vidéo, audio et 3D, atteint seulement 31,6% en mode standard. MedCUA-Bench ajoute une dimension critique : dans les interfaces cliniques authentiques (OpenEMR), les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne. Ce triptyque dessine une limite cohérente : les agents actuels gèrent bien les tâches courtes et bien définies, mais perdent le fil analytique et procédural dès que l'horizon dépasse quelques dizaines d'étapes. L'architecture mémoire Eywa (90,19% sur LoCoMo, 88,2% sur LongMemEval-S) propose une piste sérieuse — stockage immuable des sources, validation typée, récupération déterministe sans appels LLM — mais elle reste une solution partielle à un problème d'architecture plus profond.

Troisième signal, plus discret mais à fort impact opérationnel : deux vulnérabilités de fond émergent simultanément. WASH démontre qu'en moyennant les distributions de probabilité de 3 à 5 modèles, les z-scores des six principaux schémas de watermarking tombent de 5-300 à moins de 2 (seuil de détection : 4) — rendant la traçabilité statistique du contenu généré pratiquement inopérante. Du côté de la sécurité interne, l'étude sur la représentation linéaire de la malhonnêteté synthétique (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) montre que des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3, ce qui ouvre une voie concrète pour la surveillance basée sur l'activation — mais confirme aussi que la capacité à mentir de façon cohérente est encodée très tôt dans le réseau. Sur le plan infrastructure, le merge du correctif KV cache en mode tensor multi-GPU dans llama.cpp b9455 (JohannesGaessler) est le type de fix silencieux qui débloque des configurations de déploiement local bloquées depuis des semaines. Enfin, LEAP résolvant les 12 problèmes du Putnam 2025 en Lean et atteignant 70% sur Lean-IMO-Bench (contre <10% pour les LLMs génériques) confirme que la vérification formelle par décomposition agentique itérative est désormais une direction de recherche mature, pas expérimentale.

La semaine à venir verra probablement au moins un papier majeur tenter de proposer un protocole d'évaluation alternatif au LLM-as-Judge, la pression critique ayant atteint un seuil difficile à ignorer pour les équipes de benchmark.

Les 5 picks du jour

GitHub Trending·SIG 85

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> openai /</span> whisper

OpenAI Whisper est un modèle de reconnaissance vocale entraîné sur 680 000 heures de données multilingues faiblement supervisées. Le repo GitHub contient le code, les modèles pré-entraînés et les benchmarks pour la transcription vocale robuste en 99 langues.

OpenAI Voix Benchmarks

arXiv cs.AI·SIG 85

LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

LEAP est un framework agentic qui permet aux LLMs de générer des preuves formelles vérifiables en Lean. Le système décompose les problèmes complexes en unités plus petites via interaction itérative avec le compilateur Lean. Sur les 12 problèmes du Putnam 2025, LEAP en résout tous les 12 ; sur Lean-IMO-Bench, il atteint 70% de taux de résolution contre <10% pour les LLMs génériques.

Agents IA Raisonnement Benchmarks

arXiv cs.LG·SIG 82

Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents

Un nouveau métrique d'évaluation contrefactuelle (CSS) révèle que six modèles de frontier classés similairement sur des métriques traditionnelles se rangent dans l'ordre inverse selon leur capacité à adapter les recommandations cliniques face à des mutations de cas oncologiques. Tous les modèles échouent sur les changements de statut chirurgical, un défaut invisible aux métriques de couverture.

Benchmarks Évaluations Agents IA

arXiv cs.CL·SIG 82

The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment

Étude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.

Évaluations Alignement Benchmarks

arXiv cs.LG·SIG 82

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Étude multi-modèles (Pythia-1.4B, Gemma-2, Qwen2.5-7B, Llama-3.1-8B) sur la représentation linéaire de la malhonnêteté synthétique. Des sondes linéaires détectent le mensonge avec AUC ≥0.99 dès les couches 1-3. Les représentations de malhonnêteté se consolident progressivement en couches profondes, avec implications pour la surveillance basée sur l'activation.

Papers Sécurité IA Alignement

arXiv cs.LG·SIG 82

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS-Bench évalue la capacité des agents IA à maintenir un contexte analytique sur des horizons longs. Le benchmark contient 68 tâches d'analyse de données multi-tours (2 225 tours) basées sur des notebooks Kaggle réels. Les meilleurs modèles atteignent seulement 48,45% de précision, avec une chute de 47 points entre les tours précoces et tardifs. Les erreurs long-horizon représentent 52-69% des échecs.

Agents IA Benchmarks Évaluations

Reddit r/LocalLLaMA·SIG 82

ICYM: llama.cpp b9455 --SM Tensor KV Cache Fix is MERGED

llama.cpp version b9455 fusionne un correctif majeur pour la quantification du KV cache en mode tensor sur multi-GPU. La solution étend le backend meta pour gérer correctement l'aplatissement des tenseurs sans perdre les informations de forme, évitant ainsi de modifier les graphes de calcul.

Llama Open source Infrastructure

arXiv cs.CL·SIG 82

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Audit systématique des benchmarks FOLIO et MALLS révélant 39% et 36% d'erreurs dans les formalisations FOL. Les auteurs publient des annotations corrigées et un framework LLM pour guider la relabélisation manuelle, permettant d'atteindre 90% de précision en révisant <24% des instances. Tests sur Gemma 31B, Qwen3-30B et GPT-4o-mini montrent des gains de +9 à +22 points.

Benchmarks Évaluations Raisonnement

arXiv cs.AI·SIG 82

DeskCraft: Benchmarking Desktop Agents on Professional Workflows and Human-in-the-Loop Collaboration

DeskCraft est un benchmark pour agents desktop GUI évaluant des workflows professionnels longs (>50 étapes) en design, vidéo, audio et 3D avec collaboration humain-agent. 18 agents testés sur 538 tâches : GPT-5.4 atteint 31,6% en mode standard et 27,6% en mode interactif. Révèle des faiblesses en clarification proactive et exécution long horizon.

Agents IA Benchmarks Évaluations

arXiv cs.AI·SIG 82

MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents

MedCUA-Bench est un benchmark interactif pour évaluer les agents informatiques dans les interfaces cliniques. Il couvre 18 scénarios médicaux sur 10 domaines avec interfaces authentiques. Les meilleurs modèles fermés atteignent 54,2% de succès strict, les agents open-source 2,5% en moyenne, révélant un écart majeur avec la fiabilité requise.

Agents IA Benchmarks Sécurité IA

arXiv cs.CL·SIG 82

Eywa: Provenance-Grounded Long-Term Memory for AI Agents

Eywa est une architecture mémoire pour agents IA persistants, fondée sur la provenance des preuves. Elle stocke les sources immuables avant d'extraire les faits, valide les mémoires contre des signaux typés, et récupère le contexte via un chemin de lecture déterministe sans appels LLM. Résultats : 90.19% sur LoCoMo C1-C4, 88.2% sur LongMemEval-S, 81.45% sur BEAM.

Agents IA Benchmarks Papers

arXiv cs.CL·SIG 82

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

Des chercheurs démontrent que les watermarks statistiques dans les LLM sont vulnérables aux ensembles linéaires. En moyennant les distributions de probabilité de 3-5 modèles, les perturbations introduites par les watermarks s'annulent. La méthode WASH (Watermark Attenuation via Statistical Hybridisation) supprime la détection sur 6 schémas de watermarking testés, réduisant les z-scores de 5-300 à <2 (seuil: 4).

Sécurité IA Alignement Papers