Mixing Times of Glauber Dynamics on Masked Language Models
Signal
78
Hype
15
En 3 lignesLes modèles de langage masqué (MLM) définissent des distributions conditionnelles locales incompatibles avec une distribution jointe globale cohérente. Les auteurs modélisent le rééchantillonnage itératif comme une chaîne de Markov Glauber dynamics et prouvent un temps de mélange O(n log n) sous influence cross-token bornée, mais exhibent une métastabilité exponentielle à basse température.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain