arXiv cs.CL·26 mai 2026

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Signal

Hype

En 3 lignesÉtude sur les biais de rationalisation chez les juges LLM. Les chercheurs testent si les explications des modèles restent stables quand des indices non-pertinents sont modifiés (verbosité, confiance). Ils proposent PROOF-BEFORE-PREFERENCE pour améliorer l'invariance aux indices et réduire l'ancrage des explications.

Lire la source

Ton avis ?

Évaluations Raisonnement Alignement

Résumé généré par Claude — vérifié par l'humain

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Autres angles sur ce sujet