Retour au feed
arXiv cs.LG·

Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training

Signal
72
Hype
15
En 3 lignesÉtude systématique du QAT en HiF8 W8A8 sur OpenPangu-Embedded-1B. Identifie deux modes de défaillance : saturation amax (corruption silencieuse via clipping) et oubli catastrophique (surapprentissage du taux d'apprentissage). Solutions : fenêtre d'historique 64-step pour DTS et warmup BF16 500-step. Résultat : 0.43% drop MMLU, 0.58% HellaSwag, 0.22% ARC-Challenge vs baseline.
Lire la source
Ton avis ?
Fine-tuningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain