Learning Montezuma’s Revenge from a single demonstration
Signal
82
Hype
25
En 3 lignesOpenAI entraîne un agent à scorer 74 500 sur Montezuma's Revenge à partir d'une seule démonstration humaine, meilleur résultat publié. L'algorithme rejoue des séquences depuis des états clés de la démo et optimise le score via PPO.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain