Retour au feed
arXiv cs.CL·

Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why

Signal
78
Hype
15
En 3 lignesÉtude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.
Lire la source
Ton avis ?
ÉvaluationsBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain