Introducing SWE-bench Verified
Signal
75
Hype
15
En 3 lignesOpenAI publie SWE-bench Verified, un sous-ensemble validé manuellement de SWE-bench pour évaluer plus fiablement la capacité des modèles IA à résoudre des problèmes logiciels réels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain