Retour au feed
arXiv cs.LG·

Mixing Times of Glauber Dynamics on Masked Language Models

Signal
78
Hype
15
En 3 lignesLes modèles de langage masqué (MLM) définissent des distributions conditionnelles locales incompatibles avec une distribution jointe globale cohérente. Les auteurs modélisent le rééchantillonnage itératif comme une chaîne de Markov Glauber dynamics et prouvent un temps de mélange O(n log n) sous influence cross-token bornée, mais exhibent une métastabilité exponentielle à basse température.
Lire la source
Ton avis ?
PapersRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain