FishBack: Pullback Fisher Geometry for Optimal Activation Steering in Transformers
FishBack propose une méthode d'activation steering basée sur la géométrie de Fisher pour les transformers. Les auteurs montrent que l'espace d'activation n'est pas euclidien (déviation >97% sur GPT-2) et dérivent une équation de steering optimale en forme fermée. La méthode surpasse CAA, ActAdd et ITI de 1.3×–2.5× sur la réduction KL hors-cible.