Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches
Signal
78
Hype
15
En 3 lignesSAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain