arXiv cs.AI·19 mai 2026

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

Signal

Hype

En 3 lignesOSCAR quantifie les caches KV en INT2 pour les LLM long-context en estimant hors-ligne les structures de covariance alignées avec l'attention. Testé sur Qwen3 (4B–32B) et GLM-4.7 (358B), la méthode réduit l'écart de précision à 1.42–3.78 points vs BF16, réduit la mémoire de 8x et améliore le débit de 7x. Kernel INT2 compatible vLLM/SGLang.

Lire la source

Ton avis ?

Raisonnement Benchmarks Infrastructure

Résumé généré par Claude — vérifié par l'humain

OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

Autres angles sur ce sujet