arXiv cs.CL·27 mai 2026

NestedKV: Nested Memory Routing for Long-Context KV Cache Compression

Signal

Hype

En 3 lignesNestedKV compresse le cache KV des modèles long-context sans entraînement. La méthode maintient des ancres clés multi-échelles (globales, par bloc, fenêtre glissante), score les tokens par anomalie cosinus et combine les classements avec routage adaptatif par tête. Gains jusqu'à 19.10 points sur RULER et 19.29 sur LongBench vs KeyDiff (Qwen3-4B, r=0.75).

Lire la source

Ton avis ?

Raisonnement Benchmarks Qwen Llama Infrastructure

Résumé généré par Claude — vérifié par l'humain

NestedKV: Nested Memory Routing for Long-Context KV Cache Compression

Autres angles sur ce sujet