DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models
DACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusifs en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progrès de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.