Reddit r/MachineLearning·28 mai 2026

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems [R]

Signal

Hype

En 3 lignesAgingBench, un nouveau benchmark de déploiement longitudinal, montre que remplacer Claude Sonnet 4.6 par Opus 4.7 dans l'agent Claude Code CLI réduit le taux de réussite PyTest de ~15%. La politique mémoire seule provoque une variation de 4,5x dans la demi-vie de l'agent, plus importante que tout changement de modèle testé.

Lire la source

Ton avis ?

Agents IA Claude Claude Code Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems [R]

Autres angles sur ce sujet