arXiv cs.AI·19 mai 2026

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

Signal

Hype

En 3 lignesDACA-GRPO améliore l'entraînement par renforcement des modèles de langage diffusion en résolvant deux problèmes : l'absence d'attribution de crédit temporelle et le biais des estimations de vraisemblance. La méthode introduit des scores de progression de débruitage et un masquage stratifié, gagnant jusqu'à 7.4pp en génération de code et 5.6pp en raisonnement mathématique.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Génération de code Papers

Résumé généré par Claude — vérifié par l'humain

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

Autres angles sur ce sujet