Retour au feed
arXiv cs.LG·

Worker Disagreement Reveals Sharp Directions in Local SGD

Signal
75
Hype
15
En 3 lignesLes chercheurs montrent que Local SGD révèle la géométrie anisotrope de la perte via le désaccord entre workers. Les écarts worker-moyenne fournissent un estimateur sans Hessien des directions dominantes du spectre. Validé sur MLPs, CNNs et Transformers.
Lire la source
Ton avis ?
PapersReinforcement learning

Résumé généré par Claude — vérifié par l'humain