Retour au feed
arXiv cs.LG·

Interdomain Attention: Beyond Token-Level Key-Value Memory

Signal
78
Hype
15
En 3 lignesInterdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.
Lire la source
Ton avis ?
RaisonnementBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain