arXiv cs.LG·2 juin 2026

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Signal

Hype

En 3 lignesÉtude théorique des taux d'apprentissage optimaux dans les réseaux de neurones linéaires à 2-3 couches. Dérivation de formules fermées exactes pour les gradients et la perte après 1-2 étapes de descente de gradient. Résultat clé : les taux d'apprentissage inégaux minimisent la perte en phase initiale, tandis que les taux égaux deviennent optimaux après. Code disponible.

Lire la source

Ton avis ?

Papers Reinforcement learning

Résumé généré par Claude — vérifié par l'humain

Balancing Learning Rates Across Layers: Exact Two-Step Dynamics and Optimal Scaling in Linear Neural Networks

Autres angles sur ce sujet