Reddit r/LocalLLaMA·23 mai 2026

Apex-Testing: real-world, real repos, agentic coding benchmark (Update)

Signal

Hype

En 3 lignesApex-Testing, benchmark de codage agentic basé sur 65-70 repos GitHub réels, a été mis à jour à 95% avec les modèles récents. 70 tâches réparties en 8 catégories testent les capacités d'agents IA sur du code production. Classement ELO, métriques de coût/temps et comparaisons disponibles. Qwen 3.7 Max, Deepseek v4 et autres modèles en cours de complétion.

Lire la source

Ton avis ?

Agents IA Génération de code Benchmarks Évaluations

Résumé généré par Claude — vérifié par l'humain

Apex-Testing: real-world, real repos, agentic coding benchmark (Update)

Autres angles sur ce sujet