arXiv cs.AI·19 mai 2026

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Signal

Hype

En 3 lignesOmniCode est un benchmark pour évaluer les agents IA dans les tâches d'ingénierie logicielle. Il contient 1794 tâches en Python, Java et C++ couvrant correction de bugs, génération de tests, révision de code et correction de style. Les évaluations montrent que SWE-Agent atteint seulement 25% sur la génération de tests en C++ avec DeepSeek-V3.1.

Lire la source

Ton avis ?

Benchmarks Génération de code Agents IA Évaluations

Résumé généré par Claude — vérifié par l'humain

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Autres angles sur ce sujet