SparseOpt: Addressing Normalization-induced Gradient Skew in Sparse Training
Signal
72
Hype
18
En 3 lignesSparseOpt, un optimiseur conscient de la parcimonie, résout le problème de gradient asymétrique induit par la normalisation par batch en entraînement sparse dynamique. Tests sur ResNet (CIFAR-100, ImageNet) montrent convergence plus rapide et meilleure généralisation. Première étude systématique de l'interaction entre Batch Normalization, couches sparse et DST.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain