arXiv cs.LG·25 mai 2026

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Signal

Hype

En 3 lignesTensor Cache propose un système de cache à deux niveaux pour transformateurs : attention glissante locale (L1) + mémoire à poids rapides (L2) stockant les paires KV évincées sous forme de matrice. Un gate appris fusionne les sorties. Améliore le compromis mémoire-qualité sur modèles long-contexte.

Lire la source

Ton avis ?

Raisonnement Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Autres angles sur ce sujet