Retour au feed
arXiv cs.CL·

Learnability-Informed Fine-Tuning of Diffusion Language Models

Signal
78
Hype
25
En 3 lignesNouvelle méthode LIFT pour l'entraînement fin des modèles de langage par diffusion (DLMs). L'analyse montre que le SFT classique ignore la learnability des tokens selon le masquage. LIFT aligne l'apprentissage avec les étapes de diffusion : tokens faciles quand l'input est masqué, tokens difficiles avec plus de contexte. Gains jusqu'à 3x sur AIME'24/25 vs baselines SFT.
Lire la source
Ton avis ?
Fine-tuningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain