Retour au feed
OpenAI Blog·

Measuring the performance of our models on real-world tasks

Signal
75
Hype
25
En 3 lignesOpenAI lance GDPval, une nouvelle évaluation mesurant la performance des modèles sur des tâches économiquement utiles dans 44 métiers. Le benchmark teste les capacités réelles sur des cas d'usage professionnels concrets plutôt que sur des benchmarks académiques classiques.
Lire la source
Ton avis ?
OpenAIBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain