Retour au feed
arXiv cs.LG·

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

Signal
78
Hype
15
En 3 lignesDACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 36.3pp en satisfaction de contraintes.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementGénération de codePapers

Résumé généré par Claude — vérifié par l'humain