Retour au feed
arXiv cs.AI·

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

Signal
78
Hype
15
En 3 lignesAgentAtlas propose une évaluation multidimensionnelle des agents LLM au-delà des simples taux de succès. L'étude introduit une taxonomie de 6 états de contrôle, une taxonomie d'erreurs à 9 catégories, et audite 15 benchmarks existants. Sur 8 modèles (4 fermés, 4 open-weight), retirer les labels explicites réduit la précision de 14-40 pp, révélant une dépendance forte au prompt.
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain