DeepSWE: A contamination-free benchmark for long-horizon coding agents
Signal
65
Hype
15
En 3 lignesDeepSWE est un benchmark sans contamination pour évaluer les agents de codage sur des horizons longs. Il mesure la capacité des systèmes à résoudre des tâches complexes de développement logiciel de manière autonome.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain