octobre 2018

4 articles

Reinforcement learning with prediction-based rewards

OpenAI présente Random Network Distillation (RND), une méthode d'apprentissage par renforcement basée sur la prédiction qui encourage l'exploration par curiosité. RND dépasse pour la première fois la performance humaine moyenne sur Montezuma's Revenge.

OpenAI Reinforcement learning Raisonnement

SIG

HYP

OpenAI Blog·22 oct.

Learning complex goals with iterated amplification

OpenAI propose l'amplification itérée, une technique de sécurité IA permettant de spécifier des comportements complexes en décomposant les tâches en sous-tâches, sans données labellisées ni fonction de récompense. Les expériences restent limitées à des domaines algorithmiques simples.

OpenAI Sécurité IA Alignement

SIG

HYP

OpenAI Blog·11 oct.

OpenAI Scholars 2019: Applications open

OpenAI lance la deuxième édition de son programme Scholars : 6-10 bourses et mentorat pour des individus issus de groupes sous-représentés, étudiant le deep learning à temps plein pendant 3 mois avec obligation de publier un projet open-source.

OpenAI Open source

SIG

HYP

OpenAI Blog·2 oct.

FFJORD: Free-form continuous dynamics for scalable reversible generative models

OpenAI présente FFJORD, un modèle génératif réversible utilisant des dynamiques continues sans forme fixe pour l'apprentissage de distributions complexes. La méthode réduit la complexité computationnelle et améliore la scalabilité par rapport aux approches précédentes.

OpenAI Papers Benchmarks

SIG

HYP