Retour au feed
arXiv cs.LG·

When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search

Signal
78
Hype
15
En 3 lignesLes chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation contrainte par budget sur la couche et le coefficient. Ils introduisent la granularité conceptuelle pour mesurer l'hétérogénéité directionnelle et présentent GRACE, un framework utilisant la géométrie d'activation pour diagnostiquer les difficultés de steering et réduire de 39,8% les évaluations nécessaires.
Lire la source
Ton avis ?
RaisonnementAlignementPapers

Résumé généré par Claude — vérifié par l'humain