arXiv cs.AI·22 mai 2026

Open-World Evaluations for Measuring Frontier AI Capabilities

Signal

Hype

En 3 lignesNouvelle approche d'évaluation des IA frontière : les « open-world evaluations » complètent les benchmarks en testant des tâches réelles complexes sur long terme. Le projet CRUX teste un agent IA capable de développer et publier une app iOS sur l'App Store avec une seule intervention manuelle, révélant des capacités émergentes.

Lire la source

Ton avis ?

Évaluations Agents IA Benchmarks

Résumé généré par Claude — vérifié par l'humain

Open-World Evaluations for Measuring Frontier AI Capabilities

Autres angles sur ce sujet