Retour au feed
arXiv cs.CL·

Conv-to-Bench: Evaluating Language Models Via User-Assistant Dialogues In Code Tasks

Signal
72
Hype
18
En 3 lignesConv-to-Bench transforme automatiquement des dialogues multi-tours utilisateur-assistant en checklist d'évaluation structurées pour tâches de code. Le framework atteint une corrélation de Spearman ρ=1.000 avec BigCodeBench, avec accord humain κ=0.705 pour l'évaluation par LLM-as-a-judge.
Lire la source
Ton avis ?
BenchmarksGénération de codeÉvaluations

Résumé généré par Claude — vérifié par l'humain