arXiv cs.CL·2 juin 2026

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Signal

Hype

En 3 lignesNouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).

Lire la source

Ton avis ?

Reinforcement learning Alignement Évaluations Papers

Résumé généré par Claude — vérifié par l'humain

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Autres angles sur ce sujet