Retour au feed
OpenAI Blog·

Evolved Policy Gradients

Signal
72
Hype
35
En 3 lignesOpenAI publie Evolved Policy Gradients (EPG), une approche de méta-apprentissage qui évolue la fonction de perte des agents d'apprentissage. Les agents EPG généralisent à des tâches nouvelles non vues en entraînement, comme naviguer vers un objet placé d'un côté différent de la pièce.
Lire la source
Ton avis ?
OpenAIReinforcement learningRaisonnementPapers

Résumé généré par Claude — vérifié par l'humain