WriteSAE: Sparse Autoencoders for Recurrent State
En 3 lignesWriteSAE introduit le premier autoencoder creux décomposant et éditant les écritures de cache matriciel dans les modèles récurrents Gated DeltaNet, Mamba-2 et RWKV-7. Les atomes factorisés exposent une forme fermée pour les décalages logit par token, avec 92.4% de substitutions réussies sur 4,851 activations testées à Qwen3.5-0.8B et 88.1% sur Mamba-2-370M.
## WriteSAE : Ouvrir la boîte noire des états récurrents matriciels
### 1. Le problème que personne n'avait résolu
Les Sparse Autoencoders (SAEs) sont devenus l'outil standard d'interprétabilité mécanistique depuis les travaux de Anthropic sur les features superposées. Mais ils opèrent tous sur le même substrat : le résidu stream, un vecteur. Cette hypothèse est valide pour les Transformers classiques. Elle s'effondre pour les architectures récurrentes modernes.
Gated DeltaNet, Mamba-2 et RWKV-7 maintiennent un cache matriciel de dimension $d_k \times d_v$ mis à jour par des opérations rang-1 de la forme $k_t v_t^\top$. Aucun atome vectoriel ne peut représenter cette structure. Appliquer un SAE résiduel classique à ces modèles revient à analyser une image en ne lisant que sa première ligne de pixels. Les activations pertinentes sont ailleurs, dans les écritures matricielles elles-mêmes.
### 2. Ce que WriteSAE fait concrètement
L'architecture factorise chaque atome du décodeur SAE dans la forme native d'écriture matricielle. Plutôt qu'un vecteur $\mathbb{R}^d$, chaque atome est une matrice rang-1 compatible avec le mécanisme de mise à jour du cache. La contribution clé est double :
**Forme fermée pour le décalage logit par token.** WriteSAE expose analytiquement comment chaque atome contribue aux logits de sortie, token par token. Le coefficient de détermination $R^2 = 0.98$ entre la prédiction analytique et l'effet mesuré empiriquement valide que la décomposition capture la causalité réelle, pas une corrélation superficielle.
**Entraînement sous norme de Frobenius appariée.** Le critère d'entraînement est calibré pour que les atomes soient interchangeables un slot de cache à la fois, ce qui rend les substitutions chirurgicalement précises.
### 3. Les chiffres qui comptent
Sur Qwen3.5-0.8B (couche 9, tête 4) : 92.4% de substitutions réussies sur 4,851 activations testées. Le test de population à 87 atomes tient à 89.8%. Sur Mamba-2-370M : 88.1% sur 2,500 firings. Ces taux de succès sont mesurés contre une ablation à norme appariée — la baseline naturelle qui confirme que c'est bien la structure des atomes, et non simplement leur magnitude, qui produit l'effet.
L'expérience d'installation comportementale est la plus frappante : en maintenant une substitution sur trois positions consécutives avec un lift de $3\times$, le taux de rappel de la cible en continuation passe de 33.3% à 100% sous décodage glouton. C'est la première démonstration d'une intervention causale au niveau du site d'écriture matricielle récurrente.
### 4. Implications et perdants potentiels
**Pour l'interprétabilité des LLMs récurrents.** Les modèles hybrides (Mamba, RWKV, DeltaNet) gagnent du terrain dans les déploiements contraints en mémoire et en latence. Jusqu'ici, ils restaient opaques aux outils d'interprétabilité standard. WriteSAE ouvre un canal d'analyse directe sur leur mémoire d'état — ce qui était impossible avec les SAEs résiduels.
**Pour le steering et l'alignement.** La forme fermée du décalage logit combinée aux installations comportementales réussies suggère que WriteSAE n'est pas qu'un outil d'analyse post-hoc. Il constitue un vecteur d'intervention précise sur le comportement des modèles récurrents, sans fine-tuning.
**Les perdants potentiels.** Les équipes qui ont investi dans des pipelines d'interprétabilité basés exclusivement sur les SAEs résiduels pour auditer des modèles hybrides devront revoir leur méthodologie — leurs analyses sont probablement incomplètes. Plus structurellement, les architectures récurrentes avaient un avantage implicite en termes d'opacité : elles étaient moins auditables. WriteSAE réduit cet écart avec les Transformers.
La limitation non résolue : les expériences portent sur des modèles relativement petits (0.8B et 370M paramètres). La scalabilité de la décomposition rang-1 aux caches matriciels de modèles plus larges, où $d_k$ et $d_v$ sont significativement plus grands, reste à démontrer. La complexité computationnelle de l'entraînement SAE sur des espaces matriciels croît quadratiquement avec les dimensions du cache — un obstacle non trivial pour les modèles de production.
Résumé généré par Claude — vérifié par l'humain