arXiv cs.AI·19 mai 2026

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Signal

Hype

En 3 lignesProxyKV propose un framework de pruning cross-model pour accélérer l'inférence long-contexte des LLM. Une Small-Model Proxy légère évalue l'importance du cache KV de manière asynchrone pour le modèle cible. Tests sur Llama-3.1, Qwen-2.5 et Qwen-3 : récupère 98.7% de la précision de KVZip avec speedup jusqu'à 3.21× en prefilling (Llama-3.1-8B, dual-GPU) et maintient les gains jusqu'à 170k tokens.

Lire la source

Ton avis ?

Llama Qwen Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

ProxyKV: Cross-Model Proxy Pruning for Efficient Long-Context LLM Inference

Autres angles sur ce sujet