Generating and Refining Dynamic Evaluation Rubrics for LLM-as-a-Judge
Signal
75
Hype
20
En 3 lignesMéthode pour générer automatiquement des rubriques d'évaluation fine-grained sans annotation humaine, testée sur quatre benchmarks. Approche sans entraînement initial, puis affinement itératif via signaux de récompense meta-judge. Un générateur 14B affiné surpasse des modèles propriétaires plus grands.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain