Dropout Universality: Scaling Laws and Optimal Scheduling at the Edge-of-Chaos
Signal
72
Hype
15
En 3 lignesThéorie du champ moyen du dropout comme perturbation de la propagation critique des signaux. Les auteurs dérivent des lois d'échelle et montrent que les activations lisses et ReLU forment des classes d'universalité distinctes. Un calendrier de dropout front-loaded réduit la perte de test sans coût computationnel supplémentaire.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain