BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents
Signal
82
Hype
15
En 3 lignesBenchTrace est un benchmark pour évaluer la capacité d'auto-évolution des agents LLM. Basé sur 1,821 épisodes annotés couvrant six tâches, il mesure la qualité de la réflexion et teste si les agents évitent les erreurs passées. Expériences sur Qwen3-32B et GPT-4.1 : taux de réussite <30% en réflexion, oubli des leçons antérieures et généralisation faible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain