arXiv cs.LG·4 juin 2026

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

Signal

Hype

En 3 lignesRecover-LoRA étend une méthode de récupération d'accuracy sans données aux LLM quantifiés à 2-bit. Une stratégie mixte quantifie sélectivement les couches gate/up du MLP en W2 tandis que les autres restent en W4, gagnant 7.5–23.3% en throughput. Des adaptateurs low-rank entraînés par distillation logit sur données synthétiques récupèrent 80–95% d'accuracy sur Qwen3-4B avec 10k samples.

Lire la source

Ton avis ?

Fine-tuning Benchmarks

Résumé généré par Claude — vérifié par l'humain

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

Autres angles sur ce sujet