Variance reduction for policy gradient with action-dependent factorized baselines
OpenAI publie une méthode de réduction de variance pour les algorithmes de gradient de politique utilisant des baselines factorisées dépendantes des actions. La technique améliore l'efficacité d'entraînement en réduisant la variance des estimateurs de gradient, applicable aux modèles de renforcement par apprentissage.