Édition du2026-05-27

Mémoire, auto-distillation et vieillissement : trois angles sur la fiabilité des systèmes LLM en production

EnterpriseMem-Bench et AgingBench posent le même diagnostic par deux bouts opposés : les LLMs se dégradent dès qu'on les sort du contexte statique. Sur 1 400 tours Text-to-SQL, GPT-5 mini et Claude Sonnet perdent leur précision à partir du tour 3 sans mémoire de travail explicite — et Sonnet 4.6 régresse de 17 à 33 points de pourcentage sur SEC EDGAR par rapport à Sonnet 4.5, ce qui suggère que les gains de benchmark ne se transfèrent pas uniformément sur des domaines à forte densité symbolique. AgingBench complète ce tableau sur 14 modèles et ~400 exécutions : la fiabilité factuelle se dégrade même quand les tests comportementaux restent verts, via quatre mécanismes distincts (compression, interférence, révision, maintenance). Pour les équipes qui déploient des agents longue durée, c'est un signal d'alarme sur les métriques d'évaluation offline.

Sur le front post-training, Self-Verified Distillation sur Qwen3-4B montre qu'un modèle peut générer, filtrer et s'entraîner sur ses propres données sans pipeline externe : +16.7 points sur AIME26/HMMT, +11.1 sur GPQA Diamond, +8.3 sur LCBv5/v6. La méthode repose sur la cycle-consistency comme signal de qualité, ce qui la rend applicable à n'importe quel modèle disposant d'une capacité de vérification suffisante. À mettre en parallèle avec ScientistOne, qui atteint 0 hallucination sur 75 articles scientifiques grâce à Chain-of-Evidence — deux approches différentes (distillation vs traçabilité) qui convergent vers le même objectif : réduire la dérive factuelle sans dépendre de données humaines supplémentaires.

SPEAR ferme la boucle côté outillage : un optimiseur de prompts agentic qui intègre un sandbox Python pour analyser les erreurs structurelles (matrices de confusion, clustering) plutôt que de se contenter de feedback textuel. Sur 13 tâches LLM-as-judge et BBH-7, il dépasse GEPA et TextGrad avec un κ de 0.857 contre 0.359 sur la sélection d'outils. Le gain de +0.79κ attribué au seul outil Python confirme que l'analyse structurelle des erreurs est un levier sous-exploité dans l'optimisation automatique de prompts.

Les 5 picks du jour
01
02
03
04
05
Mémoire, auto-distillation et vieillissement : trois angles sur la fiabilité des systèmes LLM en production · Signal IA