𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]
En 3 lignesDelta Attention Residuals améliore les connexions résiduelles en routant sur les différences entre couches (deltas) plutôt que sur les états cachés cumulatifs. Résultats : −8.2% PPL à 7.6B, routing 1.8× plus net (max weight 0.2→0.6), <0.01% overhead paramétrique. Code et paper disponibles.
## Delta Attention Residuals : corriger l'effondrement du routage cross-couches à coût quasi nul
### 1. Le problème que personne n'avait vraiment résolu
Les connexions résiduelles standard (h_{i+1} = h_i + f(h_i)) sont la colonne vertébrale de tout transformer moderne. Depuis 2023, plusieurs travaux ont tenté d'aller plus loin avec des *Attention Residuals* : au lieu de simplement additionner la couche précédente, on route dynamiquement sur l'ensemble des états cachés passés via un mécanisme d'attention cross-couches. L'idée est séduisante — laisser le modèle choisir quelle représentation intermédiaire réutiliser.
Le problème : à grande échelle, ce routage s'effondre. Les états cachés cumulatifs h_i sont structurellement redondants — chaque couche ajoute une petite perturbation à un vecteur déjà très chargé sémantiquement. Résultat : l'attention cross-couches converge vers une distribution quasi-uniforme, avec un poids maximum de ~0.2 dans les couches profondes. Le mécanisme de sélection devient inutile. Pire : à 7.6B paramètres, les Attention Residuals dégradent la perplexité sous la baseline standard (18.58 vs 17.43), ce qui signifie que le coût architectural n'est pas compensé par le gain.
### 2. La mécanique des deltas
Delta Attention Residuals substitue les états cachés cumulatifs par leurs différences inter-couches : v_i = h_{i+1} − h_i. Ces deltas représentent la contribution nette de chaque sous-couche — ce qu'elle a effectivement modifié, pas l'accumulation de tout ce qui précède.
Pourquoi ça change tout : les deltas sont structurellement diversifiés. Certaines couches opèrent des transformations syntaxiques, d'autres sémantiques, d'autres encore de débruitage. Cette diversité structurelle empêche l'effondrement du routage. Le poids maximum d'attention passe de ~0.2 à ~0.6 (0.62 vs 0.35 en moyenne), soit 1.8× de sharpness. Le modèle apprend réellement à sélectionner des contributions passées pertinentes plutôt que de moyenner uniformément.
L'initialisation est critique : le routage additif est initialisé à zéro, ce qui garantit que le module est une identité au départ. Aucune perturbation du checkpoint de base à l'initialisation.
### 3. Les chiffres qui comptent
**Perplexité de validation** : gains de 1.7% à 8.2% selon la taille, de 220M à 7.6B paramètres. À 7.6B, −8.2% PPL sur les Attention Residuals standard et surtout +6.6% relatif sur les Attention Residuals classiques qui dégradent (18.58 → 17.43 pour la baseline standard, les DAR descendent encore plus bas).
**Overhead paramétrique** : 589K paramètres supplémentaires pour un modèle 8B, soit 0.008%. La mémoire augmente de ~3%. En throughput, DAR tourne à 14.0k tok/s contre 12.5k tok/s pour les Attention Residuals — DAR est donc à la fois plus précis et plus rapide que son prédécesseur direct.
**Fine-tuning de checkpoints existants** : Qwen3-0.6B converti en DAR via fine-tuning standard bat l'original sur 8 benchmarks downstream (score agrégé 55.6 vs 55.0). C'est le résultat le plus immédiatement actionnable : pas besoin de préentraîner from scratch.
### 4. Qui perd, qui gagne, ce qui reste ouvert
**Gagnants directs** : les équipes qui préentraînent des modèles de 1B à 10B et cherchent des gains de perplexité sans augmentation significative du budget compute ou paramétrique. Le drop-in sur checkpoints existants réduit la barrière d'entrée à quelques GPU-jours de fine-tuning.
**Perdants potentiels** : les travaux sur Attention Residuals classiques (notamment les papiers de 2023-2024 qui proposaient ce mécanisme comme amélioration générale) voient leur approche invalidée à grande échelle. Si DAR se confirme sur des modèles >10B et sur des architectures MoE, l'argument pour les AR standard disparaît.
**Ce qui reste à établir** : les benchmarks présentés couvrent 220M–7.6B, tous en dense. L'extrapolation à 70B+ et aux architectures MoE (où les deltas inter-couches ont des propriétés différentes selon les experts activés) n'est pas documentée. La robustesse aux domaines spécialisés (code, math, multilingue) n'est pas non plus évaluée indépendamment. Le fine-tuning Qwen3-0.6B est prometteur mais 0.6B reste un régime où beaucoup de techniques fonctionnent sans généraliser.
Le code est public (GitHub) et le paper est sur arXiv (2605.18855). Pour les praticiens, le test immédiat est de convertir un checkpoint existant et de mesurer la perplexité sur leur domaine cible — l'overhead est suffisamment faible pour que l'expérience soit peu coûteuse.
Résumé généré par Claude — vérifié par l'humain