Trust-Region Diffusion Policies for Massively Parallel On-Policy RL
Signal
78
Hype
25
En 3 lignesTruDi introduit des politiques de diffusion pour l'apprentissage par renforcement on-policy massivement parallèle. La méthode intègre une contrainte de divergence KL sur la trajectoire de diffusion complète pour stabiliser l'entraînement. Évaluation sur 73 tâches : surpasse les baselines, gains significatifs sur contrôle humanoïde.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain