Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers
Signal
72
Hype
15
En 3 lignesArticle théorique proposant des optimiseurs respectant les symétries des architectures neuronales modernes. Introduit des règles de mise à jour équivariantes pour embeddings, têtes LM, MLPs SwiGLU et routeurs MoE. Validation sur modèles denses et sparse MoE (Qwen3, Gemma 3, OLMoE, gpt-oss) montrant amélioration de la perte de validation vs AdamW.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain