When Is Rank-1 Steering Cheap? Geometry, Granularity, and Budgeted Search
Signal
78
Hype
15
En 3 lignesLes chercheurs formalisent le steering d'activation (contrôle d'LLM sans réentraînement) comme optimisation contrainte par budget sur la couche et le coefficient. Ils introduisent la granularité conceptuelle pour mesurer l'hétérogénéité directionnelle et présentent GRACE, un framework utilisant la géométrie d'activation pour diagnostiquer les difficultés de steering et réduire de 39,8% les évaluations nécessaires.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain