arXiv cs.LG·19 mai 2026

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Signal

Hype

En 3 lignesProxyKV propose un cadre de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une petite version du modèle (proxy) évalue l'importance du cache KV de manière asynchrone, via HybridAxialMapper et Multi-Granularity Hybrid Loss. Sur Llama-3.1, Qwen-2.5 et Qwen-3, récupère 98,7% de la précision de KVZip avec speedup jusqu'à 3,21× en prefilling (Llama-3.1-8B, dual-GPU) et contextes jusqu'à 170k tokens.

Lire la source

Ton avis ?

Llama Qwen Raisonnement Infrastructure

Résumé généré par Claude — vérifié par l'humain

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Autres angles sur ce sujet