Retour au feed
arXiv cs.LG·

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

Signal
78
Hype
18
En 3 lignesRecover-LoRA étend une méthode de récupération d'accuracy sans données aux LLM quantifiés à 2-bit. Une stratégie mixte quantifie sélectivement les couches gate/up du MLP en W2 tandis que les autres restent en W4, gagnant 7.5–23.3% en throughput. Des adaptateurs low-rank entraînés par distillation logit sur données synthétiques récupèrent 80–95% d'accuracy sur Qwen3-4B avec 10k samples.
Lire la source
Ton avis ?
Fine-tuningBenchmarks

Résumé généré par Claude — vérifié par l'humain