Agents' Last Exam
Signal
82
Hype
25
En 3 lignesAgents' Last Exam (ALE) est un benchmark évaluant les agents IA sur des tâches réelles et économiquement valorisables sur long horizon. Développé avec 250+ experts, il couvre 1K+ tâches dans 13 secteurs industriels non-physiques. Le taux de réussite moyen est 2,6% sur le niveau le plus difficile.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain