OpenAI Blog·18 avril 2018

Evolved Policy Gradients

Signal

Hype

En 3 lignesOpenAI publie Evolved Policy Gradients (EPG), une approche de méta-apprentissage qui évolue la fonction de perte des agents d'apprentissage. Les agents EPG généralisent à des tâches nouvelles non vues en entraînement, comme naviguer vers un objet placé d'un côté différent de la pièce.

Lire la source

Ton avis ?

OpenAI Reinforcement learning Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Evolved Policy Gradients

Autres angles sur ce sujet