OpenAI Blog·25 septembre 2025

Measuring the performance of our models on real-world tasks

Signal

Hype

En 3 lignesOpenAI lance GDPval, une nouvelle évaluation mesurant la performance des modèles sur des tâches économiquement utiles dans 44 métiers. Le benchmark teste les capacités réelles sur des cas d'usage professionnels concrets plutôt que sur des benchmarks académiques classiques.

Lire la source

Ton avis ?

OpenAI Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Measuring the performance of our models on real-world tasks

Autres angles sur ce sujet