Retour au feed
arXiv cs.AI·

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

Signal
82
Hype
15
En 3 lignesAgingBench, un benchmark de fiabilité longitudinale, évalue comment les agents IA déployés se dégradent au fil du temps. Étude sur 14 modèles et ~400 exécutions montrant que la fiabilité dépend de quatre mécanismes : compression, interférence, révision et maintenance. Les agents perdent précision factuelle même quand les tests comportementaux restent corrects.
Lire la source
Ton avis ?
Agents IAÉvaluationsBenchmarksSécurité IA

Résumé généré par Claude — vérifié par l'humain