Page 58 sur 192

ToutHaut signalRécent

7679 articles

Computational limitations in robust classification and win-win results

OpenAI publie une recherche sur les limites computationnelles de la classification robuste face aux adversaires. L'étude démontre des trade-offs fondamentaux : améliorer la robustesse augmente les coûts de calcul, sans garantie de performance. Implications pour la sécurité des modèles IA.

Papers Sécurité IA Alignement

SIG

HYP

OpenAI Blog·6 déc.

Quantifying generalization in reinforcement learning

OpenAI publie CoinRun, un environnement d'entraînement mesurant la capacité de généralisation des agents en RL. L'outil offre un équilibre entre simplicité et défi, plus simple que Sonic mais suffisant pour tester les algorithmes de pointe.

Reinforcement learning Benchmarks OpenAI

SIG

HYP

OpenAI Blog·8 nov.

Spinning Up in Deep RL

OpenAI publie Spinning Up in Deep RL, une ressource éducative gratuite pour apprendre le reinforcement learning profond. Le projet inclut des exemples de code, des exercices, de la documentation et des tutoriels.

OpenAI Reinforcement learning Génération de code

SIG

HYP

OpenAI Blog·2 oct.

FFJORD: Free-form continuous dynamics for scalable reversible generative models

OpenAI présente FFJORD, un modèle génératif réversible utilisant des dynamiques continues sans forme fixe pour l'apprentissage de distributions complexes. La méthode réduit la complexité computationnelle et améliore la scalabilité par rapport aux approches précédentes.

OpenAI Papers Benchmarks

SIG

HYP

OpenAI Blog·13 août

Large-scale study of curiosity-driven learning

OpenAI publie une étude à grande échelle sur l'apprentissage guidé par la curiosité. Les résultats montrent que les modèles entraînés avec des mécanismes de curiosité intrinsèque développent des représentations plus robustes et généralisables, améliorant les performances sur des tâches en aval sans supervision supplémentaire.

OpenAI Reinforcement learning Papers

SIG

HYP

OpenAI Blog·6 août

OpenAI Five Benchmark: Results

OpenAI Five remporte un match best-of-three contre une équipe de joueurs Dota au 99.95e percentile (Blitz, Cap, Fogged, Merlini, MoonMeander) devant 100 000 spectateurs en direct.

Benchmarks Reinforcement learning

SIG

HYP

OpenAI Blog·30 juil.

Learning dexterity

OpenAI a entraîné une main robotique humanoïde à manipuler des objets physiques avec une dextérité sans précédent, utilisant l'apprentissage par renforcement et la simulation.

Robotique Reinforcement learning

SIG

HYP

OpenAI Blog·9 juil.

Glow: Better reversible generative models

OpenAI présente Glow, un modèle génératif réversible utilisant des convolutions 1×1 inversibles. Le modèle génère des images haute résolution, supporte l'échantillonnage efficace et découvre des features manipulables. Code et outil de visualisation en ligne disponibles.

OpenAI Génération d'images Papers

SIG

HYP

OpenAI Blog·25 juin

OpenAI Five

OpenAI Five, une équipe de cinq réseaux de neurones, a commencé à battre des équipes humaines amateurs au Dota 2.

OpenAI Agents IA Reinforcement learning

SIG

HYP

OpenAI Blog·11 juin

Improving language understanding with unsupervised learning

OpenAI obtient des résultats état-de-l'art sur plusieurs tâches de langage avec un système scalable et agnostique aux tâches, combinant transformers et pré-entraînement non supervisé. L'approche valide l'efficacité du pré-entraînement non supervisé couplé à l'apprentissage supervisé.

OpenAI Benchmarks

SIG

HYP

OpenAI Blog·2 juin

GamePad: A learning environment for theorem proving

OpenAI présente GamePad, un environnement d'apprentissage pour la preuve de théorèmes. L'outil permet aux modèles d'IA d'apprendre à résoudre des problèmes mathématiques complexes via l'interaction avec des systèmes formels.

OpenAI Raisonnement Reinforcement learning

SIG

HYP

OpenAI Blog·25 mai

Gym Retro

OpenAI publie la version complète de Gym Retro, plateforme de recherche en apprentissage par renforcement. Le catalogue passe de ~100 jeux (Atari/Sega) à plus de 1 000 jeux. Outil d'ajout de nouveaux jeux inclus.

Reinforcement learning Benchmarks Open source

SIG

HYP

OpenAI Blog·16 mai

AI and compute

OpenAI publie une analyse montrant que depuis 2012, la puissance de calcul utilisée dans les plus grands entraînements IA double tous les 3,4 mois (vs 2 ans pour la loi de Moore). Cette métrique a augmenté de plus de 300 000x en 12 ans, confirmant que les améliorations en compute sont essentielles au progrès IA.

OpenAI Benchmarks Infrastructure

SIG

HYP

OpenAI Blog·20 mars

Variance reduction for policy gradient with action-dependent factorized baselines

OpenAI publie une méthode de réduction de variance pour les algorithmes de gradient de politique utilisant des baselines factorisées dépendantes des actions. La technique améliore l'efficacité d'entraînement en réduisant la variance des estimateurs de gradient, applicable aux modèles de renforcement par apprentissage.

Reinforcement learning OpenAI Papers

SIG

HYP

OpenAI Blog·7 mars

Reptile: A scalable meta-learning algorithm

OpenAI présente Reptile, un algorithme de meta-learning scalable qui échantillonne des tâches, applique la descente de gradient stochastique et met à jour les paramètres initiaux. Mathématiquement similaire à MAML du premier ordre, il ne nécessite qu'un accès boîte noire à un optimiseur comme SGD ou Adam.

OpenAI Reinforcement learning

SIG

HYP

OpenAI Blog·26 févr.

Multi-Goal Reinforcement Learning: Challenging robotics environments and request for research

OpenAI publie un benchmark de robotique multi-objectifs pour l'apprentissage par renforcement. La plateforme propose des environnements complexes et appelle la communauté de recherche à développer des solutions généralisables pour des tâches robotiques variées.

Reinforcement learning Robotique Benchmarks

SIG

HYP

OpenAI Blog·26 févr.

Ingredients for robotics research

OpenAI publie huit environnements robotiques simulés et une implémentation Hindsight Experience Replay pour la recherche. Ces outils ont permis d'entraîner des modèles fonctionnant sur robots physiques. OpenAI lance aussi un appel à contributions pour la recherche robotique.

Robotique Reinforcement learning Open source

SIG

HYP

OpenAI Blog·20 févr.

Preparing for malicious uses of AI

OpenAI publie un paper co-écrit avec Future of Humanity Institute, CSER, CNAS et EFF sur les usages malveillants potentiels de l'IA et les mesures de prévention. Résultat d'un an de recherche collaborative.

OpenAI Sécurité IA Papers

SIG

HYP

OpenAI Blog·18 janv.

Scaling Kubernetes to 2,500 nodes

OpenAI décrit son infrastructure Kubernetes supportant 2 500 nœuds pour l'entraînement de modèles IA à grande échelle. L'article détaille les défis d'orchestration, de networking et de gestion des ressources à cette échelle.

Infrastructure Open source

SIG

HYP

OpenAI Blog·6 déc.

Block-sparse GPU kernels

OpenAI publie des kernels GPU optimisés pour les réseaux de neurones à poids block-sparse. Ces kernels surpassent cuBLAS et cuSPARSE de plusieurs ordres de magnitude selon le taux de sparsité. Ils ont permis d'atteindre des résultats SOTA en analyse de sentiment et génération de texte/images.

OpenAI Infrastructure Génération de code

SIG

HYP

OpenAI Blog·18 oct.

Sim-to-real transfer of robotic control with dynamics randomization

OpenAI démontre le transfert sim-to-real de contrôle robotique via randomisation de dynamiques. Un robot entraîné en simulation avec variations de paramètres physiques (friction, masse, délais) réussit des tâches complexes sur du matériel réel sans ajustement supplémentaire.

Robotique Reinforcement learning Papers

SIG

HYP

OpenAI Blog·29 sept.

Nonlinear computation in deep linear networks

OpenAI publie une recherche sur le calcul non-linéaire dans les réseaux linéaires profonds. L'étude explore comment des architectures linéaires peuvent effectuer des calculs complexes malgré l'absence de fonctions d'activation non-linéaires traditionnelles.

Papers OpenAI Raisonnement

SIG

HYP

OpenAI Blog·18 août

OpenAI Baselines: ACKTR & A2C

OpenAI publie deux implémentations Baselines : A2C (variante synchrone déterministe d'A3C) et ACKTR (algorithme RL plus efficace en échantillons que TRPO/A2C, coût computationnel similaire à A2C).

Reinforcement learning Open source OpenAI

SIG

HYP

OpenAI Blog·16 août

More on Dota 2

OpenAI démontre que l'auto-jeu (self-play) propulse les systèmes ML du niveau sous-humain au surhumain avec suffisamment de calcul. En un mois, le système est passé d'un niveau équivalent aux meilleurs joueurs à la domination des pros, avec amélioration continue. Contrairement au supervised learning limité par les données d'entraînement, l'auto-jeu génère automatiquement de meilleures données.

OpenAI Reinforcement learning Benchmarks

SIG

HYP

OpenAI Blog·3 août

Gathering human feedback

OpenAI publie RL-Teacher, une implémentation open-source pour entraîner des IA via retours humains occasionnels plutôt que des fonctions de récompense prédéfinies. La technique vise à développer des systèmes IA sûrs et s'applique aux problèmes de reinforcement learning où les récompenses sont difficiles à spécifier.

OpenAI Reinforcement learning Sécurité IA

SIG

HYP

OpenAI Blog·20 juil.

Proximal Policy Optimization

OpenAI publie PPO (Proximal Policy Optimization), une classe d'algorithmes de reinforcement learning plus simples à implémenter et tuner que les approches existantes, avec performances comparables ou supérieures. PPO est devenu l'algorithme RL par défaut chez OpenAI.

OpenAI Reinforcement learning

SIG

HYP

OpenAI Blog·5 juil.

Hindsight Experience Replay

OpenAI publie une méthode d'apprentissage par renforcement appelée Hindsight Experience Replay (HER). Cette technique permet aux agents d'apprendre à partir d'expériences échouées en reformulant les objectifs rétrospectivement, améliorant significativement l'efficacité de l'entraînement sur des tâches complexes.

Reinforcement learning OpenAI Papers

SIG

HYP

OpenAI Blog·28 juin

Faster physics in Python

OpenAI open-source une bibliothèque Python haute performance pour la simulation robotique basée sur le moteur MuJoCo, fruit d'un an de recherche en robotique.

Robotique Open source Outils

SIG

HYP

OpenAI Blog·13 juin

Learning from human preferences

OpenAI et DeepMind développent un algorithme d'apprentissage par préférences humaines pour inférer les objectifs sans écrire explicitement de fonctions de récompense, réduisant les risques de comportements indésirables.

OpenAI DeepMind Reinforcement learning

SIG

HYP

OpenAI Blog·24 mai

OpenAI Baselines: DQN

OpenAI publie Baselines, une suite d'implémentations open-source d'algorithmes de reinforcement learning. La première version inclut DQN et trois variantes, avec performance équivalente aux résultats publiés.

Open source Reinforcement learning Outils

SIG

HYP

OpenAI Blog·16 mai

Robots that learn

OpenAI a développé un système robotique entraîné entièrement en simulation et déployé sur un robot physique, capable d'apprendre une nouvelle tâche après l'avoir observée une seule fois.

Robotique Reinforcement learning

SIG

HYP

OpenAI Blog·15 mai

Roboschool

OpenAI publie Roboschool, un logiciel open-source de simulation robotique intégré à OpenAI Gym pour l'entraînement d'agents de contrôle moteur.

Open source Robotique Reinforcement learning

SIG

HYP

OpenAI Blog·21 avr.

Equivalence between policy gradients and soft Q-learning

OpenAI démontre l'équivalence mathématique entre les méthodes de policy gradients et le soft Q-learning en apprentissage par renforcement. Cette découverte théorique unifie deux approches majeures de l'RL et ouvre des perspectives pour combiner leurs avantages respectifs.

Reinforcement learning Papers

SIG

HYP

OpenAI Blog·6 avr.

Unsupervised sentiment neuron

OpenAI a développé un système non supervisé qui apprend une excellente représentation du sentiment en étant entraîné uniquement à prédire le caractère suivant dans des avis Amazon.

OpenAI Raisonnement Embeddings

SIG

HYP

OpenAI Blog·24 mars

Evolution strategies as a scalable alternative to reinforcement learning

OpenAI montre que les stratégies évolutionnaires (ES) rivalisent avec l'apprentissage par renforcement standard sur des benchmarks modernes (Atari, MuJoCo) tout en évitant plusieurs inconvénients de l'RL.

OpenAI Reinforcement learning Benchmarks

SIG

HYP

OpenAI Blog·15 mars

Emergence of grounded compositional language in multi-agent populations

OpenAI publie une recherche sur l'émergence du langage compositionnel ancré dans des populations multi-agents. Les agents développent spontanément un langage structuré pour communiquer et résoudre des tâches collaboratives sans supervision linguistique explicite.

Multi-agents Agents IA OpenAI

SIG

HYP

OpenAI Blog·6 mars

Third-person imitation learning

OpenAI publie une méthode d'apprentissage par imitation en troisième personne permettant aux agents d'apprendre à partir d'observations externes sans accès direct aux actions. La technique améliore la généralisation et réduit la dépendance aux démonstrations de première personne.

OpenAI Reinforcement learning Agents IA

SIG

HYP

OpenAI Blog·19 janv.

PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications

OpenAI publie PixelCNN++, une amélioration du modèle PixelCNN pour la génération d'images via une vraisemblance logistique mélangée discrétisée et modifications architecturales. Le modèle atteint des résultats SOTA sur les benchmarks de génération d'images.

OpenAI Génération d'images Papers

SIG

HYP

OpenAI Blog·5 déc.

Universe

OpenAI lance Universe, une plateforme logicielle pour mesurer et entraîner l'intelligence générale des IA sur des jeux, sites web et applications.

OpenAI Benchmarks Agents IA

SIG

HYP

OpenAI Blog·15 nov.

#Exploration: A study of count-based exploration for deep reinforcement learning

OpenAI publie une étude sur l'exploration basée sur le comptage en apprentissage par renforcement profond. Les chercheurs analysent comment les agents peuvent explorer efficacement les environnements en utilisant des mécanismes de comptage pour identifier les états peu visités.

OpenAI Reinforcement learning Papers

SIG

HYP