Tensor Cache: Eviction-conditioned Associative Memory for Transformers
Signal
78
Hype
15
En 3 lignesTensor Cache propose un système de cache à deux niveaux pour transformateurs : attention glissante locale (L1) + mémoire à poids rapides (L2) stockant les paires KV évincées sous forme de matrice. Un gate appris fusionne les sorties. Améliore le compromis mémoire-qualité sur modèles long-contexte.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain