Retour au feed
OpenAI Blog·

Why we no longer evaluate SWE-bench Verified

Signal
75
Hype
25
En 3 lignesOpenAI abandonne l'évaluation sur SWE-bench Verified, jugé contaminé et inadéquat pour mesurer les progrès en code. L'analyse révèle des tests défectueux et des fuites d'entraînement. OpenAI recommande SWE-bench Pro comme alternative.
Lire la source
Ton avis ?
OpenAIBenchmarksGénération de codeÉvaluations

Résumé généré par Claude — vérifié par l'humain