arXiv cs.CL·19 mai 2026

Probing Persona-Dependent Preferences in Language Models

Signal

Hype

En 3 lignesDes chercheurs identifient un vecteur de préférence partagé dans Gemma-3-27B et Qwen-3.5-122B en entraînant des sondes linéaires sur les activations du flux résiduel. Ce vecteur prédit et contrôle causalement les choix de tâches du modèle à travers différentes personas, y compris une persona malveillante, révélant une représentation de préférence largement commune sous-jacente.

Lire la source

Ton avis ?

Gemini Qwen Raisonnement Alignement Papers

Résumé généré par Claude — vérifié par l'humain

Probing Persona-Dependent Preferences in Language Models

Autres angles sur ce sujet