Retour au feed
Reddit r/LocalLLaMA·

Apex-Testing: real-world, real repos, agentic coding benchmark (Update)

Signal
78
Hype
25
En 3 lignesApex-Testing, benchmark de codage agentic basé sur 65-70 repos GitHub réels, a été mis à jour à 95% avec les modèles récents. 70 tâches réparties en 8 catégories testent les capacités d'agents IA sur du code production. Classement ELO, métriques de coût/temps et comparaisons disponibles. Qwen 3.7 Max, Deepseek v4 et autres modèles en cours de complétion.
Lire la source
Ton avis ?
Agents IAGénération de codeBenchmarksÉvaluations

Résumé généré par Claude — vérifié par l'humain