Retour au feed
arXiv cs.AI·

Training Infinitely Deep and Wide Transformers

Signal
75
Hype
15
En 3 lignesArticle théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.
Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain