Retour au feed
Reddit r/LocalLLaMA·

OSCAR RotationZoo - Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

Signal
78
Hype
15
En 3 lignesOSCAR RotationZoo fournit des matrices de rotation pré-calculées pour la quantification INT2 du cache KV. La méthode compresse la mémoire KV d'un facteur ~7× avec une perte de précision inférieure à 1 chiffre sur GPQA pour modèles de raisonnement dense (Qwen3-4B, Qwen3-8B, GLM-4.7). Code et rotations disponibles sur HuggingFace.
Lire la source
Ton avis ?
BenchmarksOpen sourceQwen

Résumé généré par Claude — vérifié par l'humain