OpenAI Baselines: ACKTR & A2C
OpenAI publie deux implémentations Baselines : A2C (variante synchrone déterministe d'A3C) et ACKTR (algorithme RL plus efficace en échantillons que TRPO/A2C, coût computationnel similaire à A2C).
4 articles
OpenAI publie deux implémentations Baselines : A2C (variante synchrone déterministe d'A3C) et ACKTR (algorithme RL plus efficace en échantillons que TRPO/A2C, coût computationnel similaire à A2C).
OpenAI démontre que l'auto-jeu (self-play) propulse les systèmes ML du niveau sous-humain au surhumain avec suffisamment de calcul. En un mois, le système est passé d'un niveau équivalent aux meilleurs joueurs à la domination des pros, avec amélioration continue. Contrairement au supervised learning limité par les données d'entraînement, l'auto-jeu génère automatiquement de meilleures données.
OpenAI a créé un bot capable de battre les meilleurs joueurs professionnels de Dota 2 en matchs 1v1 selon les règles de tournoi standard. Le bot a appris par auto-jeu sans imitation learning ni tree search, progressant vers des systèmes IA accomplissant des objectifs complexes en environnements réels.
OpenAI publie RL-Teacher, une implémentation open-source pour entraîner des IA via retours humains occasionnels plutôt que des fonctions de récompense prédéfinies. La technique vise à développer des systèmes IA sûrs et s'applique aux problèmes de reinforcement learning où les récompenses sont difficiles à spécifier.