MARR: Module-Adaptive Residual Reconstruction for Low-Bit Post-Training Quantization
Signal
72
Hype
18
En 3 lignesMARR propose une méthode de quantification post-entraînement basse précision (≤4-bit) pour LLMs et Vision Transformers. Elle utilise des coefficients d'échelle adaptatifs par module pour équilibrer la correction d'erreur accumulée et le biais introduit par les résidus, via une stratégie de mise à jour basée PID. Gains jusqu'à 20,2% sur LLMs et 4,6% sur ViTs.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain