Retour au feed
Reddit r/MachineLearning·

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems [R]

Signal
75
Hype
25
En 3 lignesAgingBench, un nouveau benchmark de déploiement longitudinal, montre que remplacer Claude Sonnet 4.6 par Opus 4.7 dans l'agent Claude Code CLI réduit le taux de réussite PyTest de ~15%. La politique mémoire seule provoque une variation de 4,5x dans la demi-vie de l'agent, plus importante que tout changement de modèle testé.
Lire la source
Ton avis ?
Agents IAClaudeClaude CodeBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain