Measuring the performance of our models on real-world tasks
Signal
75
Hype
25
En 3 lignesOpenAI lance GDPval, une nouvelle évaluation mesurant la performance des modèles sur des tâches économiquement utiles dans 44 métiers. Le benchmark teste les capacités réelles sur des cas d'usage professionnels concrets plutôt que sur des benchmarks académiques classiques.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain