Energy-Gated Attention and Wavelet Positional Encoding: Complementary Inductive Biases for Transformer Attention
Signal
62
Hype
25
En 3 lignesDeux mécanismes complémentaires pour améliorer l'attention transformer : Energy-Gated Attention (EGA) sélectionne les tokens informatifs via projection linéaire ; Morlet Positional Encoding (MoPE) remplace les encodages sinusoïdaux par des ondelettes gaussiennes apprises. Sur TinyShakespeare, leur combinaison atteint +0.119 amélioration de loss validation, surpassant la somme des parties individuelles.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain