arXiv cs.CL·19 mai 2026

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

Signal

Hype

En 3 lignesLes LLM présentent des représentations internes hautement anisotropes avec des activations massives. Au lieu de les traiter comme des artefacts, les auteurs les identifient comme des unités fonctionnelles interprétables via un critère basé sur la magnitude. Le steering appliqué à ces dimensions critiques surpasse le steering conventionnel en adaptation de domaine et jailbreaking.

Lire la source

Ton avis ?

Sécurité IA

Résumé généré par Claude — vérifié par l'humain

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

Autres angles sur ce sujet