arXiv cs.LG·29 mai 2026

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models

Signal

Hype

En 3 lignesÉtude de la géométrie des représentations induites par LoRA via autoencodeurs creux (SAE) sur Gemma-2-9B. Les chercheurs observent un faible alignement géométrique entre les dictionnaires de features LoRA et les SAE préentraînés, suggérant que LoRA crée des structures représentationnelles distinctes dans le flux résiduel.

Lire la source

Ton avis ?

Fine-tuning Sécurité IA Papers

Résumé généré par Claude — vérifié par l'humain

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models

Autres angles sur ce sujet