arXiv cs.LG·26 mai 2026

Interdomain Attention: Beyond Token-Level Key-Value Memory

Signal

Hype

En 3 lignesInterdomain Attention fusionne transformers et state space models via méthodes kernel : les features d'attention sont projetées sur des fonctions de base maintenues par un SSM, permettant une attention query-conditionnée sur état fixe. Sur FineWeb-Edu (125M-1.3B), surpasse les baselines softmax à 1.3B en perplexité et commonsense, avec comportement length-flat jusqu'à 3.5x le contexte d'entraînement.

Lire la source

Ton avis ?

Raisonnement Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Interdomain Attention: Beyond Token-Level Key-Value Memory

Autres angles sur ce sujet