Reinforcement learning with prediction-based rewards
OpenAI présente Random Network Distillation (RND), une méthode d'apprentissage par renforcement basée sur la prédiction qui encourage l'exploration par curiosité. RND dépasse pour la première fois la performance humaine moyenne sur Montezuma's Revenge.