Probing Persona-Dependent Preferences in Language Models
Signal
75
Hype
15
En 3 lignesÉtude des préférences internes dans les LLM via sondes linéaires sur les activations résiduelles. Les chercheurs identifient un vecteur de préférence partagé sur Gemma-3-27B et Qwen-3.5-122B, qui prédit et contrôle causalement les choix du modèle. Ce vecteur reste stable même quand le modèle adopte des personas radicalement différentes (assistant bienveillant vs persona malveillante).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain