Retour au feed
arXiv cs.CL·

NestedKV: Nested Memory Routing for Long-Context KV Cache Compression

Signal
78
Hype
18
En 3 lignesNestedKV compresse le cache KV des modèles long-context sans entraînement. La méthode maintient des ancres clés multi-échelles (globales, par bloc, fenêtre glissante), score les tokens par anomalie cosinus et combine les classements avec routage adaptatif par tête. Gains jusqu'à 19.10 points sur RULER et 19.29 sur LongBench vs KeyDiff (Qwen3-4B, r=0.75).
Lire la source
Ton avis ?
RaisonnementBenchmarksQwenLlamaInfrastructure

Résumé généré par Claude — vérifié par l'humain