Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
Signal
82
Hype
15
En 3 lignesAgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain