Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models
Signal
75
Hype
15
En 3 lignesTABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain