Retour au feed
arXiv cs.CL·

FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers

Signal
78
Hype
15
En 3 lignesFishBack propose une méthode d'activation steering basée sur la géométrie de Fisher pour les transformers. Les auteurs montrent que l'espace d'activation n'est pas euclidien (déviation >97% sur GPT-2) et dérivent une équation de steering optimale en forme fermée. La méthode surpasse CAA, ActAdd et ITI de 1.3×–2.5× sur la réduction KL hors-cible.
Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain