Open-world evaluations for measuring frontier AI capabilities
CRUX est un nouveau projet d'évaluation pour mesurer les capacités des modèles IA frontière sur des tâches longues et complexes en environnement ouvert, au-delà des benchmarks traditionnels.