Retour au feed
arXiv cs.AI·

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Signal
78
Hype
15
En 3 lignesAnalyse théorique complète de la dynamique des gradients dans les têtes d'attention des transformers sous entraînement cross-entropy. Les auteurs établissent une loi de routage basée sur l'avantage et une mise à jour pondérée par responsabilité, montrant que l'optimisation crée des variétés bayésiennes qui implémentent le raisonnement probabiliste en contexte.
Lire la source
Ton avis ?
RaisonnementPapersBenchmarks

Résumé généré par Claude — vérifié par l'humain