arXiv cs.AI·19 mai 2026

Training Infinitely Deep and Wide Transformers

Signal

Hype

En 3 lignesArticle théorique sur l'entraînement des transformers en régime champ moyen (profondeur et largeur infinies). Les auteurs modélisent l'entraînement comme contrôle d'une PDE neurale (vs ODE pour ResNets), établissent la bonne posture du passage forward, dérivant formules explicites pour les gradients Wasserstein et prouvant convergence du gradient flow vers minima globaux sous conditions d'injectivité du NTK.

Lire la source

Ton avis ?

Raisonnement Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Training Infinitely Deep and Wide Transformers

Autres angles sur ce sujet