NestedKV: Nested Memory Routing for Long-Context KV Cache Compression
Signal
78
Hype
18
En 3 lignesNestedKV compresse le cache KV des modèles long-context sans entraînement. La méthode maintient des ancres clés multi-échelles (globales, par bloc, fenêtre glissante), score les tokens par anomalie cosinus et combine les classements avec routage adaptatif par tête. Gains jusqu'à 19.10 points sur RULER et 19.29 sur LongBench vs KeyDiff (Qwen3-4B, r=0.75).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain