Introducing the SWE-Lancer benchmark
Signal
72
Hype
65
En 3 lignesOpenAI présente SWE-Lancer, un benchmark mesurant la capacité des LLMs frontier à accomplir des tâches réelles de freelance software engineering et générer des revenus. Le test évalue si les modèles peuvent gagner $1 million sur des projets réels.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain