Unlocking Feature Learning in Gated Delta Networks at Scale
Signal
72
Hype
15
En 3 lignesÉtude des règles de scaling pour les Gated Delta Networks via μP. Les auteurs dérivent les paramétrisations optimales pour le transfer de taux d'apprentissage entre largeurs de modèles. Validation expérimentale sur pré-entraînement de LLM avec AdamW et SGD.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain