Agreement Metrics for LLM-as-Judge Evaluation: What to Report and Why
Signal
78
Hype
15
En 3 lignesÉtude des métriques d'accord pour l'évaluation par LLM-as-Judge. Analyse de 24 papiers récents montrant que pour les critères binaires (MET/UNMET), Pearson r, Spearman ρ, Kendall τ_b et phi sont redondants. Cohen's κ seul ajoute de l'information. Les auteurs proposent une checklist de reporting incluant l'échelle de jugement, la gestion des abstentions et la matrice de confusion.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain