Retour au feed
arXiv cs.CL·

Probing Persona-Dependent Preferences in Language Models

Signal
78
Hype
25
En 3 lignesDes chercheurs identifient un vecteur de préférence partagé dans Gemma-3-27B et Qwen-3.5-122B en entraînant des sondes linéaires sur les activations du flux résiduel. Ce vecteur prédit et contrôle causalement les choix de tâches du modèle à travers différentes personas, y compris une persona malveillante, révélant une représentation de préférence largement commune sous-jacente.
Lire la source
Ton avis ?
GeminiQwenRaisonnementAlignementPapers

Résumé généré par Claude — vérifié par l'humain