DynMuon: A Dynamic Spectral Shaping View of Muon
Signal
78
Hype
15
En 3 lignesDynMuon étend Muon en remplaçant la mise à jour M par U·Σ^p·V† avec un paramètre p dynamique. La théorie montre que p positif accélère la contraction du signal en début d'entraînement, tandis que p légèrement négatif réalloue la force de mise à jour vers les directions basse-courbure en fin d'entraînement. DynMuon réduit de 10,6-26,5% le nombre d'étapes pour atteindre une perte cible donnée.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain