Retour au feed
arXiv cs.LG·

Energy-Gated Attention and Wavelet Positional Encoding: Complementary Inductive Biases for Transformer Attention

Signal
62
Hype
25
En 3 lignesDeux mécanismes complémentaires pour améliorer l'attention transformer : Energy-Gated Attention (EGA) sélectionne les tokens informatifs via projection linéaire ; Morlet Positional Encoding (MoPE) remplace les encodages sinusoïdaux par des ondelettes gaussiennes apprises. Sur TinyShakespeare, leur combinaison atteint +0.119 amélioration de loss validation, surpassant la somme des parties individuelles.
Lire la source
Ton avis ?
PapersRaisonnement

Résumé généré par Claude — vérifié par l'humain