OSCAR RotationZoo - Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
Signal
78
Hype
15
En 3 lignesOSCAR RotationZoo fournit des matrices de rotation pré-calculées pour la quantification INT2 du cache KV. La méthode compresse la mémoire KV d'un facteur ~7× avec une perte de précision inférieure à 1 chiffre sur GPQA pour modèles de raisonnement dense (Qwen3-4B, Qwen3-8B, GLM-4.7). Code et rotations disponibles sur HuggingFace.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain