arXiv cs.CL·19 mai 2026

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

Signal

Hype

En 3 lignesTABOM, une méthode de post-entraînement pour modèles de diffusion linguistiques, aligne l'optimisation sur la trajectoire de décodage multi-étapes facile-vers-difficile observée en inférence. Via une modélisation Boltzmann des préférences de démasquage, elle dérive un objectif de ranking par paires qui réduit le décalage entraînement-inférence et améliore les performances en nouveaux domaines.

Lire la source

Ton avis ?

Fine-tuning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

Autres angles sur ce sujet