Retour au feed
AI Snake Oil·

Open-world evaluations for measuring frontier AI capabilities

Signal
65
Hype
35
En 3 lignesCRUX est un nouveau projet d'évaluation pour mesurer les capacités des modèles IA frontière sur des tâches longues et complexes en environnement ouvert, au-delà des benchmarks traditionnels.
Lire la source
Ton avis ?
ÉvaluationsBenchmarks

Résumé généré par Claude — vérifié par l'humain