arXiv cs.LG·16 juin 2026

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Signal

Hype

En 3 lignesTruDi introduit des politiques de diffusion pour l'apprentissage par renforcement on-policy massivement parallèle. La méthode intègre une contrainte de divergence KL sur la trajectoire de diffusion complète pour stabiliser l'entraînement. Évaluation sur 73 tâches : surpasse les baselines, gains significatifs sur contrôle humanoïde.

Lire la source

Ton avis ?

Reinforcement learning Raisonnement Robotique Papers

Résumé généré par Claude — vérifié par l'humain

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Autres angles sur ce sujet