Retour au feed
arXiv cs.LG·

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

Signal
78
Hype
15
En 3 lignesSAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.
Lire la source
Ton avis ?
RaisonnementInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain