arXiv cs.LG·28 mai 2026

SparseOpt: Addressing Normalization-induced Gradient Skew in Sparse Training

Signal

Hype

En 3 lignesSparseOpt, un optimiseur conscient de la parcimonie, résout le problème de gradient asymétrique induit par la normalisation par batch en entraînement sparse dynamique. Tests sur ResNet (CIFAR-100, ImageNet) montrent convergence plus rapide et meilleure généralisation. Première étude systématique de l'interaction entre Batch Normalization, couches sparse et DST.

Lire la source

Ton avis ?

Papers Benchmarks Fine-tuning

Résumé généré par Claude — vérifié par l'humain

SparseOpt: Addressing Normalization-induced Gradient Skew in Sparse Training

Autres angles sur ce sujet