Reinforcement learning with prediction-based rewards
Signal
82
Hype
25
En 3 lignesOpenAI présente Random Network Distillation (RND), une méthode d'apprentissage par renforcement basée sur la prédiction qui encourage l'exploration par curiosité. RND dépasse pour la première fois la performance humaine moyenne sur Montezuma's Revenge.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain