LaDi-RL: Latent Diffusion Reasoning Prevents Entropy Collapse in Reinforcement Learning
Signal
78
Hype
25
En 3 lignesLaDi-RL optimise le raisonnement des LLM via RL en espace latent avec diffusion. Au lieu d'optimiser des séquences de tokens, la méthode génère des trajectoires de raisonnement latentes par débruitage itératif. Elle résout le problème d'attribution de crédit (récompenses observées après décodage) par rollouts hiérarchiques latent-texte. Gains : +9.4% code generation, +5.7% math reasoning en pass@1.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain