Conv-to-Bench: Evaluating Language Models Via User-Assistant Dialogues In Code Tasks
Signal
72
Hype
18
En 3 lignesConv-to-Bench transforme automatiquement des dialogues multi-tours utilisateur-assistant en checklist d'évaluation structurées pour tâches de code. Le framework atteint une corrélation de Spearman ρ=1.000 avec BigCodeBench, avec accord humain κ=0.705 pour l'évaluation par LLM-as-a-judge.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain