The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation
Signal
82
Hype
15
En 3 lignesÉtude de fiabilité sur LLM-as-a-Judge : GPT-4o-mini et GPT-4.1-mini montrent une instabilité importante avec 13,6% de retournements de préférence en moyenne, 28% des questions dépassant 20% de flip rate. Biais de position détecté (72% A-majority). Accord inter-juges à 76% (κ=0,51). 11 essais répétés nécessaires pour 95% de confiance.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain