Retour au feed
arXiv cs.AI·

KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy

Signal
78
Hype
25
En 3 lignesKVCapsule compresse le cache KV des modèles vision-langage lors du décodage autorégressif. La méthode exploite les patterns d'attention structurés des tokens visuels pour atteindre 2x d'amélioration en TPS et 2.4x de réduction mémoire à 60% de compression, sans modification du backbone préentraîné.
Lire la source
Ton avis ?
VisionRaisonnementInfrastructureBenchmarks

Résumé généré par Claude — vérifié par l'humain