DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models
Signal
78
Hype
15
En 3 lignesDevBench est un benchmark télémétrie-driven évaluant les LLM sur 1 800 tâches réalistes de complétion de code en 6 langages. 9 modèles SOTA testés, meilleur score 43.5% Pass@1. Combine correction fonctionnelle, métriques de similarité et jugements LLM sur utilité et pertinence contextuelle.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain