Retour au feed
arXiv cs.CL·

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

Signal
72
Hype
18
En 3 lignesLes LLM présentent des représentations internes hautement anisotropes avec des activations massives. Au lieu de les traiter comme des artefacts, les auteurs les identifient comme des unités fonctionnelles interprétables via un critère basé sur la magnitude. Le steering appliqué à ces dimensions critiques surpasse le steering conventionnel en adaptation de domaine et jailbreaking.
Lire la source
Ton avis ?
Sécurité IA

Résumé généré par Claude — vérifié par l'humain