Retour au feed
arXiv cs.CL·

Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning

Signal
72
Hype
18
En 3 lignesNouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).
Lire la source
Ton avis ?
Reinforcement learningAlignementÉvaluationsPapers

Résumé généré par Claude — vérifié par l'humain