arXiv cs.AI·22 mai 2026

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

Signal

Hype

En 3 lignesAgentAtlas propose une évaluation multidimensionnelle des agents LLM au-delà des simples taux de succès. L'étude introduit une taxonomie de 6 états de contrôle, une taxonomie d'erreurs à 9 catégories, et audite 15 benchmarks existants. Sur 8 modèles (4 fermés, 4 open-weight), retirer les labels explicites réduit la précision de 14-40 pp, révélant une dépendance forte au prompt.

Lire la source

Ton avis ?

Agents IA Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

Autres angles sur ce sujet