Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion
Signal
78
Hype
15
En 3 lignesLes modèles de diffusion vidéo autorégressifs utilisent un cache KV quantifié pour réduire la mémoire, mais la quantization crée un biais d'attention (Jensen bias) qui dégrade la qualité. Les auteurs proposent une correction per-attention-score calculée à partir des pas de quantization, récupérant la qualité perdue avec INT2 tout en utilisant 50% moins de mémoire qu'INT4.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain