arXiv cs.LG·25 mai 2026

Anytime Training with Schedule-Free Spectral Optimization

Signal

Hype

En 3 lignesSF-NorMuon, un optimiseur spectral sans calendrier, égale ou surpasse AdamW sur des modèles de langage de 125M et 772M paramètres sans nécessiter de calendrier d'apprentissage prédéfini. Preuve théorique de garantie de stationnarité et identification de la décroissance de poids comme essentielle pour la stabilité long-horizon.

Lire la source

Ton avis ?

Reinforcement learning Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Anytime Training with Schedule-Free Spectral Optimization

Autres angles sur ce sujet