arXiv cs.CL·1 juin 2026

Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge

Signal

Hype

En 3 lignesMéthode pour générer automatiquement des rubriques d'évaluation fine-grained sans annotation humaine, testée sur quatre benchmarks. Approche sans entraînement initial, puis affinement itératif via signaux de récompense meta-judge. Un générateur 14B affiné surpasse des modèles propriétaires plus grands.

Lire la source

Ton avis ?

Évaluations Fine-tuning Reinforcement learning Papers

Résumé généré par Claude — vérifié par l'humain

Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge

Autres angles sur ce sujet