The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment
Signal
82
Hype
15
En 3 lignesÉtude géométrique montrant que l'accord inter-LLM sur les évaluations subjectives ne reflète pas l'alignement humain. Sur 41 juges LLM et 8 langues indiennes, les modèles utilisent 30-50% de la plage de scores humains, avec un axe d'évaluation quasi-orthogonal aux humains (87-89° vs 78-81°). L'accord LLM-LLM (r≈0.35) dépasse LLM-humain (r≈0.27-0.32). Seule la calibration post-hoc améliore tous les critères.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain