Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data
Signal
78
Hype
18
En 3 lignesRecover-LoRA étend une méthode de récupération d'accuracy sans données aux LLM quantifiés à 2-bit. Une stratégie mixte quantifie sélectivement les couches gate/up du MLP en W2 tandis que les autres restent en W4, gagnant 7.5–23.3% en throughput. Des adaptateurs low-rank entraînés par distillation logit sur données synthétiques récupèrent 80–95% d'accuracy sur Qwen3-4B avec 10k samples.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain