Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning
Signal
72
Hype
18
En 3 lignesNouvelle métrique automatisée (Triangulated Preference Shift score) pour mesurer les biais lexicaux introduits lors de l'apprentissage par préférence (RLHF) dans les LLM, sans annotation manuelle. Analyse sur 6 familles de modèles révèle une tendance vers un « langage de prestige » (suremploi de « delve », « furthermore »).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain