Retour au feed
arXiv cs.LG·

SparseOpt: Addressing Normalization-induced Gradient Skew in Sparse Training

Signal
72
Hype
18
En 3 lignesSparseOpt, un optimiseur conscient de la parcimonie, résout le problème de gradient asymétrique induit par la normalisation par batch en entraînement sparse dynamique. Tests sur ResNet (CIFAR-100, ImageNet) montrent convergence plus rapide et meilleure généralisation. Première étude systématique de l'interaction entre Batch Normalization, couches sparse et DST.
Lire la source
Ton avis ?
PapersBenchmarksFine-tuning

Résumé généré par Claude — vérifié par l'humain