Theory-optimal Quantization Based on Flatness
Signal
78
Hype
15
En 3 lignesNouvelle méthode de quantification post-entraînement pour LLMs appelée Bidirectional Diagonal Quantization (BDQ). Introduit la métrique Flatness pour quantifier la distribution des outliers d'activation. BDQ atteint <1% de perte de précision en W4A4 sur LLaMA-3-8B et réduit l'écart de performance de 39,1% en W2A4KV16 sur DeepSeek-R1-Distill-LLaMA-70B.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain