Open-world evaluations for measuring frontier AI capabilities
Signal
65
Hype
35
En 3 lignesCRUX est un nouveau projet d'évaluation pour mesurer les capacités des modèles IA frontière sur des tâches longues et complexes en environnement ouvert, au-delà des benchmarks traditionnels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain