arXiv cs.LG·20 mai 2026

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

Signal

Hype

En 3 lignesSAECache propose une politique d'éviction sémantique pour les caches de préfixes LLM. Les tokens ne sont pas tous aussi utiles à cacher : certains types (prompts système, requêtes utilisateur, outputs d'outils) montrent jusqu'à 756x de variation en taux de réutilisation. SAECache utilise une architecture multi-queue avec apprentissage en ligne pour adapter les priorités, atteignant 1.4x-2.7x d'amélioration TTFT.

Lire la source

Ton avis ?

Raisonnement Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

Not All Tokens Are Worth Caching: Learning Semantic-Aware Eviction for LLM Prefix Caches

Autres angles sur ce sujet