arXiv cs.CL·27 mai 2026

Conv-to-Bench: Evaluating Language Models Via User-Assistant Dialogues In Code Tasks

Signal

Hype

En 3 lignesConv-to-Bench transforme automatiquement des dialogues multi-tours utilisateur-assistant en checklist d'évaluation structurées pour tâches de code. Le framework atteint une corrélation de Spearman ρ=1.000 avec BigCodeBench, avec accord humain κ=0.705 pour l'évaluation par LLM-as-a-judge.

Lire la source

Ton avis ?

Benchmarks Génération de code Évaluations

Résumé généré par Claude — vérifié par l'humain

Conv-to-Bench: Evaluating Language Models Via User-Assistant Dialogues In Code Tasks

Autres angles sur ce sujet