août 2017

4 articles

OpenAI Baselines: ACKTR & A2C

OpenAI publie deux implémentations Baselines : A2C (variante synchrone déterministe d'A3C) et ACKTR (algorithme RL plus efficace en échantillons que TRPO/A2C, coût computationnel similaire à A2C).

Reinforcement learning Open source OpenAI

SIG

HYP

OpenAI Blog·16 août

OpenAI démontre que l'auto-jeu (self-play) propulse les systèmes ML du niveau sous-humain au surhumain avec suffisamment de calcul. En un mois, le système est passé d'un niveau équivalent aux meilleurs joueurs à la domination des pros, avec amélioration continue. Contrairement au supervised learning limité par les données d'entraînement, l'auto-jeu génère automatiquement de meilleures données.

OpenAI Reinforcement learning Benchmarks

SIG

HYP

OpenAI Blog·11 août

Dota 2

OpenAI a créé un bot capable de battre les meilleurs joueurs professionnels de Dota 2 en matchs 1v1 selon les règles de tournoi standard. Le bot a appris par auto-jeu sans imitation learning ni tree search, progressant vers des systèmes IA accomplissant des objectifs complexes en environnements réels.

OpenAI Reinforcement learning Agents IA

SIG

HYP

OpenAI Blog·3 août

Gathering human feedback

OpenAI publie RL-Teacher, une implémentation open-source pour entraîner des IA via retours humains occasionnels plutôt que des fonctions de récompense prédéfinies. La technique vise à développer des systèmes IA sûrs et s'applique aux problèmes de reinforcement learning où les récompenses sont difficiles à spécifier.

OpenAI Reinforcement learning Sécurité IA

SIG

HYP

août 2017

OpenAI Baselines: ACKTR & A2C

More on Dota 2

Dota 2

Gathering human feedback