Retour au feed
arXiv cs.LG·

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Signal
78
Hype
25
En 3 lignesTruDi introduit des politiques de diffusion pour l'apprentissage par renforcement on-policy massivement parallèle. La méthode intègre une contrainte de divergence KL sur la trajectoire de diffusion complète pour stabiliser l'entraînement. Évaluation sur 73 tâches : surpasse les baselines, gains significatifs sur contrôle humanoïde.
Lire la source
Ton avis ?
Reinforcement learningRaisonnementRobotiquePapers

Résumé généré par Claude — vérifié par l'humain