OmniCode: A Benchmark for Evaluating Software Engineering Agents
Signal
78
Hype
15
En 3 lignesOmniCode est un benchmark pour évaluer les agents IA dans les tâches d'ingénierie logicielle. Il contient 1794 tâches en Python, Java et C++ couvrant correction de bugs, génération de tests, révision de code et correction de style. Les évaluations montrent que SWE-Agent atteint seulement 25% sur la génération de tests en C++ avec DeepSeek-V3.1.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain