Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
Signal
78
Hype
15
En 3 lignesAnalyse théorique complète de la dynamique des gradients dans les têtes d'attention des transformers sous entraînement cross-entropy. Les auteurs établissent une loi de routage basée sur l'avantage et une mise à jour pondérée par responsabilité, montrant que l'optimisation crée des variétés bayésiennes qui implémentent le raisonnement probabiliste en contexte.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain