arXiv cs.AI·19 mai 2026

LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning

Signal

Hype

En 3 lignesLaDi-RL optimise le raisonnement des LLM via RL en espace latent avec diffusion. Au lieu d'optimiser des séquences de tokens, la méthode génère des trajectoires de raisonnement latentes par débruitage itératif. Elle résout le problème d'attribution de crédit (récompenses observées après décodage) par rollouts hiérarchiques latent-texte. Gains : +9.4% code generation, +5.7% math reasoning en pass@1.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Génération de code Papers

Résumé généré par Claude — vérifié par l'humain

LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning

Autres angles sur ce sujet