Retour au feed
arXiv cs.LG·

Steered Generation via Gradient-Based Optimization on Sparse Query Features

Signal
72
Hype
18
En 3 lignesPrototype-Based Sparse Steering applique des Sparse Autoencoders aux activations d'attention query des LLMs pour décomposer les représentations en features interprétables. L'optimisation par gradient pendant l'inférence aligne ces représentations avec des prototypes de comportements cibles. Validé sur Textualized Gridworld (contraintes de planification) et domaine éducatif (complexité cognitive via Bloom's Taxonomy).
Lire la source
Ton avis ?
RaisonnementFine-tuningPapers

Résumé généré par Claude — vérifié par l'humain