Retour au feed
arXiv cs.LG·

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Signal
82
Hype
18
En 3 lignesProxyKV propose un cadre de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une petite version du modèle (proxy) évalue l'importance du cache KV de manière asynchrone, via HybridAxialMapper et Multi-Granularity Hybrid Loss. Sur Llama-3.1, Qwen-2.5 et Qwen-3, récupère 98,7% de la précision de KVZip avec speedup jusqu'à 3,21× en prefilling (Llama-3.1-8B, dual-GPU) et contextes jusqu'à 170k tokens.
Lire la source
Ton avis ?
LlamaQwenRaisonnementInfrastructure

Résumé généré par Claude — vérifié par l'humain