Steered Generation via Gradient-Based Optimization on Sparse Query Features
Signal
72
Hype
18
En 3 lignesPrototype-Based Sparse Steering applique des Sparse Autoencoders aux activations d'attention query des LLMs pour décomposer les représentations en features interprétables. L'optimisation par gradient pendant l'inférence aligne ces représentations avec des prototypes de comportements cibles. Validé sur Textualized Gridworld (contraintes de planification) et domaine éducatif (complexité cognitive via Bloom's Taxonomy).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain