OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
Signal
82
Hype
15
En 3 lignesOSCAR quantifie les caches KV en INT2 pour les LLM long-context en estimant hors-ligne les structures de covariance alignées avec l'attention. Testé sur Qwen3 (4B–32B) et GLM-4.7 (358B), la méthode réduit l'écart de précision à 1.42–3.78 points vs BF16, réduit la mémoire de 8x et améliore le débit de 7x. Kernel INT2 compatible vLLM/SGLang.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain