EnterpriseMem-Bench et AgingBench posent le même diagnostic par deux bouts opposés : les LLMs se dégradent dès qu'on les sort du contexte statique. Sur 1 400 tours Text-to-SQL, GPT-5 mini et Claude Sonnet perdent leur précision à partir du tour 3 sans mémoire de travail explicite — et Sonnet 4.6 régresse de 17 à 33 points de pourcentage sur SEC EDGAR par rapport à Sonnet 4.5, ce qui suggère que les gains de benchmark ne se transfèrent pas uniformément sur des domaines à forte densité symbolique. AgingBench complète ce tableau sur 14 modèles et ~400 exécutions : la fiabilité factuelle se dégrade même quand les tests comportementaux restent verts, via quatre mécanismes distincts (compression, interférence, révision, maintenance). Pour les équipes qui déploient des agents longue durée, c'est un signal d'alarme sur les métriques d'évaluation offline.
Sur le front post-training, Self-Verified Distillation sur Qwen3-4B montre qu'un modèle peut générer, filtrer et s'entraîner sur ses propres données sans pipeline externe : +16.7 points sur AIME26/HMMT, +11.1 sur GPQA Diamond, +8.3 sur LCBv5/v6. La méthode repose sur la cycle-consistency comme signal de qualité, ce qui la rend applicable à n'importe quel modèle disposant d'une capacité de vérification suffisante. À mettre en parallèle avec ScientistOne, qui atteint 0 hallucination sur 75 articles scientifiques grâce à Chain-of-Evidence — deux approches différentes (distillation vs traçabilité) qui convergent vers le même objectif : réduire la dérive factuelle sans dépendre de données humaines supplémentaires.
SPEAR ferme la boucle côté outillage : un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering) plutôt que de se contenter de feedback textuel. Sur 13 tâches LLM-as-judge et BBH-7, il dépasse GEPA et TextGrad avec un κ de 0.857 contre 0.359 sur la sélection d'outils. Le gain de +0.79κ attribué au seul outil Python confirme que l'analyse structurelle des erreurs est un levier sous-exploité dans l'optimisation automatique de prompts.
EnterpriseMem-Bench, un benchmark multi-tour Text-to-SQL de 1 400 tours sur 300 sessions, évalue GPT-5 mini, GPT-5.2, Claude Sonnet 4.5/4.6 et Opus 4.6. Résultats clés : sans mémoire, la précision s'effondre dès le tour 3 ; la mémoire de travail domine les architectures complexes ; Sonnet 4.6 régresse de 17-33pp sur SEC EDGAR vs Sonnet 4.5.
SPEAR est un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering). Évalué sur 13 tâches industrielles LLM-as-judge et BBH-7, il surpasse GEPA et TextGrad (κ 0.857 vs 0.359 sur sélection d'outils; F1-macro 0.815 vs 0.763). L'outil Python contribue +0.79κ sur les tâches complexes.
Qwen3 améliore ses capacités de raisonnement via Self-Verified Distillation, un algorithme post-training sans données externes. Le modèle génère des solutions, les filtre par auto-vérification (cycle-consistency, factualité, correction), puis s'entraîne sur les données auto-curées. Gains : +16.7 points en math (AIME26/HMMT), +11.1 en science (GPQA), +8.3 en coding pour Qwen3-4B.
ScientistOne, un système autonome de recherche, introduit Chain-of-Evidence (CoE) pour tracer chaque affirmation à sa source. Évaluation sur 75 articles : les systèmes de base montrent 21% de références halluccinées, 42% de vérification de scores réussie. ScientistOne atteint 0 hallucination, vérification parfaite, et surpasse les experts humains sur 5 tâches.
AgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.