Retour au feed
arXiv cs.AI·

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Signal
78
Hype
15
En 3 lignesProxyKV propose un framework de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une Small-Model Proxy légère évalue l'importance du cache KV de manière asynchrone pour le modèle cible. Tests sur Llama-3.1, Qwen-2.5 et Qwen-3 : récupère 98.7% de la précision de KVZip avec speedup jusqu'à 3.21× en prefilling (Llama-3.1-8B, dual-GPU) et maintient les gains jusqu'à 170k tokens.
Lire la source
Ton avis ?
LlamaQwenRaisonnementBenchmarksInfrastructure

Résumé généré par Claude — vérifié par l'humain