arXiv cs.AI·19 mai 2026

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Signal

Hype

En 3 lignesAnalyse théorique complète de la dynamique des gradients dans les têtes d'attention des transformers sous entraînement cross-entropy. Les auteurs établissent une loi de routage basée sur l'avantage et une mise à jour pondérée par responsabilité, montrant que l'optimisation crée des variétés bayésiennes qui implémentent le raisonnement probabiliste en contexte.

Lire la source

Ton avis ?

Raisonnement Papers Benchmarks

Résumé généré par Claude — vérifié par l'humain

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Autres angles sur ce sujet