mars 2017

7 articles

Evolution strategies as a scalable alternative to reinforcement learning

OpenAI montre que les stratégies évolutionnaires (ES) rivalisent avec l'apprentissage par renforcement standard sur des benchmarks modernes (Atari, MuJoCo) tout en évitant plusieurs inconvénients de l'RL.

OpenAI Reinforcement learning Benchmarks

SIG

HYP

OpenAI Blog·21 mars

One-shot imitation learning

OpenAI présente une méthode d'apprentissage par imitation en une seule démonstration. La technique permet aux modèles d'apprendre à partir d'un unique exemple sans entraînement supplémentaire, applicable aux tâches de robotique et de contrôle.

OpenAI Reinforcement learning Robotique

SIG

HYP

OpenAI Blog·20 mars

Distill

OpenAI soutient le lancement de Distill, une nouvelle revue spécialisée dans la communication claire des résultats en machine learning, qu'ils soient novateurs ou existants.

Papers Benchmarks

SIG

HYP

OpenAI Blog·16 mars

Learning to communicate

OpenAI publie une recherche sur le développement d'un langage propre par les agents. Les agents apprennent à communiquer entre eux via un protocole émergent, sans supervision humaine explicite.

OpenAI Agents IA Multi-agents

SIG

HYP

OpenAI Blog·15 mars

Emergence of grounded compositional language in multi-agent populations

OpenAI publie une recherche sur l'émergence du langage compositionnel ancré dans des populations multi-agents. Les agents développent spontanément un langage structuré pour communiquer et résoudre des tâches collaboratives sans supervision linguistique explicite.

Multi-agents Agents IA OpenAI

SIG

HYP

OpenAI Blog·12 mars

Prediction and control with temporal segment models

OpenAI présente les temporal segment models (TSM), des modèles capables de prédire et contrôler des séquences temporelles complexes. Ces modèles segmentent les données en intervalles temporels pour améliorer la prédiction et le contrôle dans des environnements dynamiques.

OpenAI Raisonnement Benchmarks

SIG

HYP

OpenAI Blog·6 mars

Third-person imitation learning

OpenAI publie une méthode d'apprentissage par imitation en troisième personne permettant aux agents d'apprendre à partir d'observations externes sans accès direct aux actions. La technique améliore la généralisation et réduit la dépendance aux démonstrations de première personne.

OpenAI Reinforcement learning Agents IA

SIG

HYP