arXiv cs.AI·19 mai 2026

KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy

Signal

Hype

En 3 lignesKVCapsule compresse le cache KV des modèles vision-langage lors du décodage autorégressif. La méthode exploite les patterns d'attention structurés des tokens visuels pour atteindre 2x d'amélioration en TPS et 2.4x de réduction mémoire à 60% de compression, sans modification du backbone préentraîné.

Lire la source

Ton avis ?

Vision Raisonnement Infrastructure Benchmarks

Résumé généré par Claude — vérifié par l'humain

KVCapsule: Efficient Sequential KV Cache Compression for Vision-Language Models with Asymmetric Redundancy

Autres angles sur ce sujet