Retour au feed
arXiv cs.AI·

Agents' Last Exam

Signal
82
Hype
25
En 3 lignesAgents' Last Exam (ALE) est un benchmark évaluant les agents IA sur des tâches réelles et économiquement valorisables sur long horizon. Développé avec 250+ experts, il couvre 1K+ tâches dans 13 secteurs industriels non-physiques. Le taux de réussite moyen est 2,6% sur le niveau le plus difficile.
Lire la source
Ton avis ?
Agents IABenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain