Retour au feed
arXiv cs.AI·

Open-World Evaluations for Measuring Frontier AI Capabilities

Signal
78
Hype
25
En 3 lignesNouvelle approche d'évaluation des IA frontière : les « open-world evaluations » complètent les benchmarks en testant des tâches réelles complexes sur long terme. Le projet CRUX teste un agent IA capable de développer et publier une app iOS sur l'App Store avec une seule intervention manuelle, révélant des capacités émergentes.
Lire la source
Ton avis ?
ÉvaluationsAgents IABenchmarks

Résumé généré par Claude — vérifié par l'humain