arXiv cs.AI·19 mai 2026

Probing Persona-Dependent Preferences in Language Models

Signal

Hype

En 3 lignesÉtude des préférences internes dans les LLM via sondes linéaires sur les activations résiduelles. Les chercheurs identifient un vecteur de préférence partagé sur Gemma-3-27B et Qwen-3.5-122B, qui prédit et contrôle causalement les choix du modèle. Ce vecteur reste stable même quand le modèle adopte des personas radicalement différentes (assistant bienveillant vs persona malveillante).

Lire la source

Ton avis ?

Gemini Qwen Raisonnement Alignement Papers

Résumé généré par Claude — vérifié par l'humain

Probing Persona-Dependent Preferences in Language Models

Autres angles sur ce sujet