arXiv cs.LG·19 May 2026

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

Signal

Hype

In three linesDACA-GRPO improves reinforcement learning for diffusion language models by addressing temporal credit assignment and mean-field likelihood bias. It introduces Denoising Progress Scores and Stratified Masking Likelihood, achieving gains up to 7.4pp on code generation and 36.3pp on constraint satisfaction across seven benchmarks.

Read source

Your take?

Reinforcement learning Reasoning Code generation Papers

Summary generated by Claude — human-verified

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

Other angles on this story