Why we no longer evaluate SWE-bench Verified
Signal
75
Hype
25
En 3 lignesOpenAI abandonne l'évaluation sur SWE-bench Verified, jugé contaminé et inadéquat pour mesurer les progrès en code. L'analyse révèle des tests défectueux et des fuites d'entraînement. OpenAI recommande SWE-bench Pro comme alternative.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain