arXiv cs.LG·27 mai 2026

Energy-Gated Attention and Wavelet Positional Encoding: Complementary Inductive Biases for Transformer Attention

Signal

Hype

En 3 lignesDeux mécanismes complémentaires pour améliorer l'attention transformer : Energy-Gated Attention (EGA) sélectionne les tokens informatifs via projection linéaire ; Morlet Positional Encoding (MoPE) remplace les encodages sinusoïdaux par des ondelettes gaussiennes apprises. Sur TinyShakespeare, leur combinaison atteint +0.119 amélioration de loss validation, surpassant la somme des parties individuelles.

Lire la source

Ton avis ?

Papers Raisonnement

Résumé généré par Claude — vérifié par l'humain

Energy-Gated Attention and Wavelet Positional Encoding: Complementary Inductive Biases for Transformer Attention

Autres angles sur ce sujet