Retour au feed
arXiv cs.CL·

KVDrive: A Holistic Multi-Tier KV Cache Management System for Long-Context LLM Inference

Signal
78
Hype
15
En 3 lignesKVDrive est un système de gestion multi-niveaux du cache KV (clés-valeurs) pour l'inférence LLM long-contexte, orchestrant placement en mémoire GPU/DRAM/SSD, ordonnancement du pipeline et coordination inter-niveaux. Le prototype atteint 1.74x de débit supérieur aux systèmes existants sans perte de précision.
Lire la source
Ton avis ?
InfrastructureRaisonnement

Résumé généré par Claude — vérifié par l'humain