Retour au feed
arXiv cs.CL·

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Signal
78
Hype
15
En 3 lignesÉtude sur les biais de rationalisation chez les juges LLM. Les chercheurs testent si les explications des modèles restent stables quand des indices non-pertinents sont modifiés (verbosité, confiance). Ils proposent PROOF-BEFORE-PREFERENCE pour améliorer l'invariance aux indices et réduire l'ancrage des explications.
Lire la source
Ton avis ?
ÉvaluationsRaisonnementAlignement

Résumé généré par Claude — vérifié par l'humain