Retour au feed
arXiv cs.LG·

Can Entry-Wise Clipping Give Spectral Control of Stochastic Gradients?

Signal
72
Hype
15
En 3 lignesArticle théorique sur le contrôle spectral du bruit de gradient stochastique via clipping entrée-par-entrée. Montre qu'une méthode simple d'écrêtage entrée-par-entrée peut équilibrer structure matricielle et coût computationnel, avec garanties de convergence O(ε⁻⁴) sous bruit Cauchy-contaminé. Gains empiriques : ~7% de tokens économisés sur NanoGPT avec shrinkage lisse, ~2% supplémentaires combiné avec Muon.
Lire la source
Ton avis ?
PapersReinforcement learningBenchmarks

Résumé généré par Claude — vérifié par l'humain