Retour au feed
arXiv cs.AI·

LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning

Signal
78
Hype
25
En 3 lignesLaDi-RL optimise le raisonnement des LLM via RL en espace latent avec diffusion. Au lieu d'optimiser des séquences de tokens, la méthode génère des trajectoires de raisonnement latentes par débruitage itératif. Elle résout le problème d'attribution de crédit (récompenses observées après décodage) par rollouts hiérarchiques latent-texte. Gains : +9.4% code generation, +5.7% math reasoning en pass@1.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementGénération de codePapers

Résumé généré par Claude — vérifié par l'humain