Édition du2026-05-27

Mémoire, auto-distillation et vieillissement : trois angles sur la fiabilité des systèmes LLM en production

Par l'équipe éditoriale

EnterpriseMem-Bench et AgingBench posent le même diagnostic par deux bouts opposés : les LLMs se dégradent dès qu'on les sort du contexte statique. Sur 1 400 tours Text-to-SQL, GPT-5 mini et Claude Sonnet perdent leur précision à partir du tour 3 sans mémoire de travail explicite — et Sonnet 4.6 régresse de 17 à 33 points de pourcentage sur SEC EDGAR par rapport à Sonnet 4.5, ce qui suggère que les gains de benchmark ne se transfèrent pas uniformément sur des domaines à forte densité symbolique. AgingBench complète ce tableau sur 14 modèles et ~400 exécutions : la fiabilité factuelle se dégrade même quand les tests comportementaux restent verts, via quatre mécanismes distincts (compression, interférence, révision, maintenance). Pour les équipes qui déploient des agents longue durée, c'est un signal d'alarme sur les métriques d'évaluation offline.

Sur le front post-training, Self-Verified Distillation sur Qwen3-4B montre qu'un modèle peut générer, filtrer et s'entraîner sur ses propres données sans pipeline externe : +16.7 points sur AIME26/HMMT, +11.1 sur GPQA Diamond, +8.3 sur LCBv5/v6. La méthode repose sur la cycle-consistency comme signal de qualité, ce qui la rend applicable à n'importe quel modèle disposant d'une capacité de vérification suffisante. À mettre en parallèle avec ScientistOne, qui atteint 0 hallucination sur 75 articles scientifiques grâce à Chain-of-Evidence — deux approches différentes (distillation vs traçabilité) qui convergent vers le même objectif : réduire la dérive factuelle sans dépendre de données humaines supplémentaires.

SPEAR ferme la boucle côté outillage : un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering) plutôt que de se contenter de feedback textuel. Sur 13 tâches LLM-as-judge et BBH-7, il dépasse GEPA et TextGrad avec un κ de 0.857 contre 0.359 sur la sélection d'outils. Le gain de +0.79κ attribué au seul outil Python confirme que l'analyse structurelle des erreurs est un levier sous-exploité dans l'optimisation automatique de prompts.

Les 5 picks du jour

arXiv cs.CL·SIG 82

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

EnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.

Benchmarks Génération de code GPT

arXiv cs.CL·SIG 82

SPEAR: Code-Augmented Agentic Prompt Optimization

SPEAR est un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering). Évalué sur 13 tâches industrielles LLM-as-judge et BBH-7, il surpasse GEPA et TextGrad (κ 0.857 vs 0.359 sur sélection d'outils; F1-macro 0.815 vs 0.763). L'outil Python contribue +0.79κ sur les tâches complexes.

Prompt engineering Agents IA Génération de code

arXiv cs.CL·SIG 82

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Qwen3 améliore ses capacités de raisonnement via Self-Verified Distillation, un algorithme post-training sans données externes. Le modèle génère des solutions, les filtre par auto-vérification (cycle-consistency, factualité, correction), puis s'entraîne sur les données auto-curées. Gains : +16.7 points en math (AIME26/HMMT), +11.1 en science (GPQA), +8.3 en coding pour Qwen3-4B.

Qwen Fine-tuning Raisonnement

arXiv cs.AI·SIG 82

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

ScientistOne, un système autonome de recherche, introduit Chain-of-Evidence (CoE) pour tracer chaque affirmation à sa source. Évaluation sur 75 articles : les systèmes de base montrent 21% de références halluccinées, 42% de vérification de scores réussie. ScientistOne atteint 0 hallucination, vérification parfaite, et surpasse les experts humains sur 5 tâches.

Agents IA Raisonnement Évaluations

arXiv cs.AI·SIG 82

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

AgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.

Agents IA Évaluations Benchmarks