Evolved Policy Gradients
OpenAI publie Evolved Policy Gradients (EPG), une approche de méta-apprentissage qui évolue la fonction de perte des agents d'apprentissage. Les agents EPG généralisent à des tâches nouvelles non vues en entraînement, comme naviguer vers un objet placé d'un côté différent de la pièce.