Open-World Evaluations for Measuring Frontier AI Capabilities
Signal
78
Hype
25
En 3 lignesNouvelle approche d'évaluation des IA frontière : les « open-world evaluations » complètent les benchmarks en testant des tâches réelles complexes sur long terme. Le projet CRUX teste un agent IA capable de développer et publier une app iOS sur l'App Store avec une seule intervention manuelle, révélant des capacités émergentes.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain