OpenAI Blog·11 août 2017

Dota 2

Signal

Hype

En 3 lignesOpenAI a créé un bot capable de battre les meilleurs joueurs professionnels de Dota 2 en matchs 1v1 selon les règles de tournoi standard. Le bot a appris par auto-jeu sans imitation learning ni tree search, progressant vers des systèmes IA accomplissant des objectifs complexes en environnements réels.

## OpenAI Five (proto) : un bot RL bat les pros de Dota 2 en 1v1

### 1. Ce qui s'est passé exactement

OpenAI a déployé un bot entraîné exclusivement par self-play — sans imitation learning sur des replays humains, sans tree search de type MCTS — capable de battre des joueurs professionnels de Dota 2 en format 1v1 (mid lane, Shadow Fiend, règles tournoi standard). Les victoires incluent des matchs contre Dendi, considéré à l'époque comme l'un des meilleurs joueurs mondiaux, lors du The International 2017. Le bot a été entraîné en l'équivalent de deux semaines de temps réel, mais en temps de calcul massivement parallélisé, représentant des mois-années d'expérience de jeu.

### 2. Pourquoi le signal est élevé

Dota 2 n'est pas un jeu de plateau à information parfaite. Même en 1v1, l'environnement impose : information partielle (brouillard de guerre), espace d'action continu et combinatoire (mouvements, sorts, objets, timing), horizon temporel long (parties de 10-20 minutes), et adversaire humain imprévisible. Ce n'est pas Chess ni Go.

Avant cette annonce, le consensus dans la communauté RL était que les environnements temps réel complexes avec information partielle nécessitaient soit de l'imitation learning pour bootstrapper la politique, soit des heuristiques domain-specific massives. OpenAI démontre ici que le self-play pur, à suffisamment grande échelle de calcul, suffit à produire une politique surhumaine sur un sous-ensemble bien défini du jeu.

Le signal technique clé : **pas de tree search**. AlphaGo et ses successeurs reposaient sur MCTS à l'inférence. Ici, la politique est entièrement feed-forward (réseau de neurones récurrent), ce qui signifie que la latence de décision est constante et ne croît pas avec la profondeur de recherche. C'est architecturalement plus proche de ce qu'on veut pour des agents déployables en environnements réels.

### 3. Contexte et comparaisons

**Avant** : les bots Dota 2 existants (Valve scripted bots) étaient battus trivialement par des joueurs de niveau intermédiaire. L'état de l'art en jeux vidéo temps réel était DeepMind/Atari (2015), mais sur des jeux à information complète et espace d'action discret simple. OpenAI Universe (2016) avait posé le cadre d'entraînement sur environnements réels, sans résultat compétitif probant.

**Après** : ce résultat ouvre directement la voie à OpenAI Five (annoncé en 2018), qui étendra l'approche au 5v5 complet avec une équipe de cinq agents entraînés en parallèle. La même architecture PPO (Proximal Policy Optimization) sera utilisée, confirmant que le scaling du self-play est le levier principal.

Comparaison directe avec AlphaGo Zero (publié quelques mois plus tard, octobre 2017) : AlphaGo Zero utilise aussi le self-play pur, mais sur Go — information parfaite, espace d'action fini, pas de temps réel. Le résultat OpenAI Dota est antérieur et opère dans un régime strictement plus difficile sur les dimensions temporelles et informationnelles.

### 4. Perdants potentiels et limites

**Limites immédiates** : le 1v1 mid est un sous-jeu très contraint de Dota 2. Un seul héros (Shadow Fiend), pas de jungle, pas de supports, pas de coordination d'équipe. Les compétences transférées au 5v5 complet ne sont pas garanties — et effectivement, OpenAI Five mettra encore un an à atteindre le niveau pro en 5v5, avec des restrictions significatives (pas d'Aegis, pool de héros limité).

**Perdants structurels** : les équipes de recherche qui misaient sur l'imitation learning comme composant obligatoire pour les jeux complexes voient leur hypothèse fragilisée. Les approches hybrides RL+search (style AlphaZero) sont également challengées pour les domaines temps réel.

**Question ouverte** : le coût de calcul n'est pas publié précisément. Le self-play à cette échelle reste inaccessible sans infrastructure de type cloud massivement distribuée. Ce n'est pas un résultat reproductible par un laboratoire académique standard en 2017, ce qui concentre le progrès dans les labs bien capitalisés.

Le vrai signal de cet article n'est pas "l'IA bat un pro à un jeu vidéo" — c'est la validation empirique que PPO + self-play + compute scale = politique surhumaine sur tâches complexes à horizon long, sans ingénierie domain-specific. C'est la thèse qui guidera OpenAI (et DeepMind avec AlphaStar) pendant les cinq années suivantes.

Lire la source

Ton avis ?

OpenAI Reinforcement learning Agents IA

Résumé généré par Claude — vérifié par l'humain

Dota 2

Autres angles sur ce sujet