OpenAI Blog·20 mars 2018

Variance reduction for policy gradient with action-dependent factorized baselines

Signal

Hype

En 3 lignesOpenAI publie une méthode de réduction de variance pour les algorithmes de gradient de politique utilisant des baselines factorisées dépendantes des actions. La technique améliore l'efficacité d'entraînement en réduisant la variance des estimateurs de gradient, applicable aux modèles de renforcement par apprentissage.

Lire la source

Ton avis ?

Reinforcement learning OpenAI Papers

Résumé généré par Claude — vérifié par l'humain

Variance reduction for policy gradient with action-dependent factorized baselines

Autres angles sur ce sujet