Retour au feed
arXiv cs.LG·

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Signal
78
Hype
15
En 3 lignesTensor Cache propose un système de cache à deux niveaux pour transformateurs : attention glissante locale (L1) + mémoire à poids rapides (L2) stockant les paires KV évincées sous forme de matrice. Un gate appris fusionne les sorties. Améliore le compromis mémoire-qualité sur modèles long-contexte.
Lire la source
Ton avis ?
RaisonnementInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain