arXiv cs.AI·27 mai 2026

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

Signal

Hype

En 3 lignesAgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.

Lire la source

Ton avis ?

Agents IA Évaluations Benchmarks Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

Autres angles sur ce sujet