Interdomain Attention: Beyond Token-Level Key-Value Memory
Signal
78
Hype
15
En 3 lignesInterdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain