Training Infinitely Deep and Wide Transformers
Signal
75
Hype
15
En 3 lignesArticle théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain