arXiv cs.LG·25 mai 2026

Steered Generation via Gradient-Based Optimization on Sparse Query Features

Signal

Hype

En 3 lignesPrototype-Based Sparse Steering applique des Sparse Autoencoders aux activations d'attention query des LLMs pour décomposer les représentations en features interprétables. L'optimisation par gradient pendant l'inférence aligne ces représentations avec des prototypes de comportements cibles. Validé sur Textualized Gridworld (contraintes de planification) et domaine éducatif (complexité cognitive via Bloom's Taxonomy).

Lire la source

Ton avis ?

Raisonnement Fine-tuning Papers

Résumé généré par Claude — vérifié par l'humain

Steered Generation via Gradient-Based Optimization on Sparse Query Features

Autres angles sur ce sujet