Can Entry-Wise Clipping Give Spectral Control of Stochastic Gradients?
Signal
72
Hype
15
En 3 lignesArticle théorique sur le contrôle spectral du bruit de gradient stochastique via clipping entrée-par-entrée. Montre qu'une méthode simple d'écrêtage entrée-par-entrée peut équilibrer structure matricielle et coût computationnel, avec garanties de convergence O(ε⁻⁴) sous bruit Cauchy-contaminé. Gains empiriques : ~7% de tokens économisés sur NanoGPT avec shrinkage lisse, ~2% supplémentaires combiné avec Muon.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain