Retour au feed
arXiv cs.LG·

Anytime Training with Schedule-Free Spectral Optimization

Signal
78
Hype
18
En 3 lignesSF-NorMuon, un optimiseur spectral sans calendrier, égale ou surpasse AdamW sur des modèles de langage de 125M et 772M paramètres sans nécessiter de calendrier d'apprentissage prédéfini. Preuve théorique de garantie de stationnarité et identification de la décroissance de poids comme essentielle pour la stabilité long-horizon.
Lire la source
Ton avis ?
Reinforcement learningBenchmarksPapers

Résumé généré par Claude — vérifié par l'humain