Evolved Policy Gradients
Signal
72
Hype
35
En 3 lignesOpenAI publie Evolved Policy Gradients (EPG), une approche de méta-apprentissage qui évolue la fonction de perte des agents d'apprentissage. Les agents EPG généralisent à des tâches nouvelles non vues en entraînement, comme naviguer vers un objet placé d'un côté différent de la pièce.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain