Anytime Training with Schedule-Free Spectral Optimization
Signal
78
Hype
18
En 3 lignesSF-NorMuon, un optimiseur spectral sans calendrier, égale ou surpasse AdamW sur des modèles de langage de 125M et 772M paramètres sans nécessiter de calendrier d'apprentissage prédéfini. Preuve théorique de garantie de stationnarité et identification de la décroissance de poids comme essentielle pour la stabilité long-horizon.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain