Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks
Signal
75
Hype
15
En 3 lignesÉtude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain