arXiv cs.CL·15 juin 2026

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Signal

Hype

En 3 lignesÉtude de fiabilité sur LLM-as-a-Judge : GPT-4o-mini et GPT-4.1-mini montrent une instabilité importante avec 13,6% de retournements de préférence en moyenne, 28% des questions dépassant 20% de flip rate. Biais de position détecté (72% A-majority). Accord inter-juges à 76% (κ=0,51). 11 essais répétés nécessaires pour 95% de confiance.

Lire la source

Ton avis ?

Évaluations GPT OpenAI Benchmarks Sécurité IA

Résumé généré par Claude — vérifié par l'humain

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Autres angles sur ce sujet