OpenAI Blog·31 octobre 2018

Reinforcement learning with prediction-based rewards

Signal

Hype

En 3 lignesOpenAI présente Random Network Distillation (RND), une méthode d'apprentissage par renforcement basée sur la prédiction qui encourage l'exploration par curiosité. RND dépasse pour la première fois la performance humaine moyenne sur Montezuma's Revenge.

Lire la source

Ton avis ?

OpenAI Reinforcement learning Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Reinforcement learning with prediction-based rewards

Autres angles sur ce sujet