Retour au feed
arXiv cs.LG·

The Weight Norm Sets the Grokking Timescale: A Causal Delay Law

Signal
82
Hype
15
En 3 lignesÉtude causale sur le grokking : l'intervalle avant généralisation dépend de la norme des poids. Sous décroissance de poids libre, les réseaux grockent à une norme critique Wc stable (CV 1-2%). En fixant la norme à ρ×Wc, le délai suit T_grok ∝ exp(α·ρ) avec α≈7.5 (R²=0.996 sur 4 moduli). La norme contrôle le délai 19× plus que le taux d'apprentissage.

## Grokking : la norme des poids comme horloge causale

### 1. Ce qui était disputé — et pourquoi ça comptait

Depuis la publication originale de Power et al. (2022), le grokking — cette généralisation tardive qui survient des milliers de steps après la mémorisation parfaite du train set — a généré une littérature contradictoire sur ses mécanismes. Un camp observait une norme des poids critique au moment de la transition ; un autre rapportait du grokking sans norme fixe identifiable. Cette contradiction n'était pas anodine : si la norme n'est qu'un corrélat observationnel, les stratégies d'accélération du grokking (weight decay agressif, etc.) reposent sur une intuition fausse. Si elle est causale, on dispose d'un levier direct.

Le problème méthodologique était classique : toutes les études antérieures *observaient* la norme sans *intervenir* dessus. Corrélation ≠ causalité, même en deep learning.

### 2. L'intervention causale : pinning de norme

L'arXiv:2606.13753 tranche en appliquant une logique d'intervention directe. Plutôt que de laisser la norme évoluer librement sous weight decay, les auteurs la *fixent* (« clamp ») à une valeur cible ρ × Wc pendant l'entraînement, où Wc est la norme critique mesurée en régime libre.

Résultats clés :

- **Wc est remarquablement stable** : coefficient de variation de 1 à 2% à travers les seeds et learning rates. Ce n'est pas un artefact de run particulier. - **Wc suit une loi puissance** avec la base modulaire (l'hyperparamètre de la tâche arithmétique modulo p). - **Avec norme fixée à ρ × Wc**, le délai de grokking suit T_grok ∝ exp(α·ρ), avec α ≈ 7.5, ajusté sur quatre moduli différents avec R² = 0.996. Un seul exposant universel. - **Comparaison des leviers** : sur les plages balayées, la norme fixée déplace le délai d'un facteur ~19×, le learning rate de seulement ~2×. La norme domine. - **La norme au-dessus de Wc ralentit, ne bloque pas** : grokking finit par arriver, mais exponentiellement plus tard.

### 3. Le rôle de LayerNorm — et ce qu'il révèle

L'expérience de contrôle la plus instructive : l'ajout d'une LayerNorm finale *supprime* la dépendance exponentielle. Mécanisme : LayerNorm découple l'échelle des poids de la fonction réseau. Autrement dit, la norme n'agit pas directement sur la loss ou les gradients en tant que scalaire — elle agit via son effet sur la *fonction* que le réseau implémente. Sans LayerNorm, retirer ce découplage restaure la loi exponentielle.

Cela précise aussi la relation avec les travaux théoriques antérieurs : la loi logarithmique prédite pour une norme *librement contractante* (sous weight decay pur) est le pendant de la loi exponentielle ici mesurée pour une norme *fixée*. Les deux sont cohérentes dans un cadre unifié.

### 4. Implications pratiques et perdants potentiels

**Pour les praticiens qui cherchent à accélérer le grokking** (ou à comprendre la généralisation tardive dans leurs propres modèles) : le levier actionnable n'est pas le learning rate — c'est la norme. Un weight decay calibré pour atteindre Wc rapidement est ~9× plus efficace que de jouer sur le LR dans les plages testées.

**Pour la recherche sur la généralisation** : la loi T_grok ∝ exp(7.5·ρ) est suffisamment précise (R²=0.996 sur 4 configurations) pour servir de benchmark de référence. Tout modèle théorique du grokking qui ne reproduit pas cette dépendance exponentielle avec cet exposant est incomplet.

**Perdants potentiels** : - Les explications du grokking centrées sur la *structure des circuits* (hypothèse que le réseau doit « trouver » un algorithme modulaire) sans référence à la norme sont fragilisées : la norme seule, maintenue constante, suffit à moduler le délai sur 19×. - Les approches qui utilisent LayerNorm par défaut dans leurs expériences de grokking risquent d'avoir masqué ce signal causal — leurs résultats négatifs sur la norme sont explicables. - Les travaux qui proposaient le learning rate comme levier principal de contrôle du délai sont relativisés par le ratio 19×/2×.

**Limite à noter** : les expériences portent sur de l'arithmétique modulaire (tâche canonique du grokking), pas sur des architectures de production. La transférabilité à des transformers entraînés sur du langage naturel reste à établir. Mais la rigueur causale de la méthodologie — intervention directe, contrôle LayerNorm, universalité de l'exposant α sur plusieurs moduli — place ce résultat au-dessus du niveau habituel des études corrélationnelles sur le grokking.

Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain