arXiv cs.AI·29 mai 2026

BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents

Signal

Hype

En 3 lignesBenchTrace est un benchmark pour évaluer la capacité d'auto-évolution des agents LLM. Basé sur 1,821 épisodes annotés couvrant six tâches, il mesure la qualité de la réflexion et teste si les agents évitent les erreurs passées. Expériences sur Qwen3-32B et GPT-4.1 : taux de réussite <30% en réflexion, oubli des leçons antérieures et généralisation faible.

Lire la source

Ton avis ?

Agents IA Benchmarks Raisonnement Évaluations

Résumé généré par Claude — vérifié par l'humain

BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents

Autres angles sur ce sujet