Retour au feed
OpenAI Blog·

Reinforcement learning with prediction-based rewards

Signal
82
Hype
25
En 3 lignesOpenAI présente Random Network Distillation (RND), une méthode d'apprentissage par renforcement basée sur la prédiction qui encourage l'exploration par curiosité. RND dépasse pour la première fois la performance humaine moyenne sur Montezuma's Revenge.
Lire la source
Ton avis ?
OpenAIReinforcement learningRaisonnementBenchmarks

Résumé généré par Claude — vérifié par l'humain