Retour au feed
OpenAI Blog·

Introducing the SWE-Lancer benchmark

Signal
72
Hype
65
En 3 lignesOpenAI présente SWE-Lancer, un benchmark mesurant la capacité des LLMs frontier à accomplir des tâches réelles de freelance software engineering et générer des revenus. Le test évalue si les modèles peuvent gagner $1 million sur des projets réels.
Lire la source
Ton avis ?
OpenAIBenchmarksGénération de codeAgents IA

Résumé généré par Claude — vérifié par l'humain