Retour au feed
Hacker News (AI)·

DeepSWE: A contamination-free benchmark for long-horizon coding agents

Signal
65
Hype
15
En 3 lignesDeepSWE est un benchmark sans contamination pour évaluer les agents de codage sur des horizons longs. Il mesure la capacité des systèmes à résoudre des tâches complexes de développement logiciel de manière autonome.
Lire la source
Ton avis ?
BenchmarksGénération de codeAgents IA

Résumé généré par Claude — vérifié par l'humain