OpenAI Blog·16 mai 2025

Introducing Codex

Signal

Hype

En 3 lignesOpenAI présente Codex, un modèle basé sur GPT-3 spécialisé dans la génération de code. Entraîné sur du code public, il comprend plus de 12 langages de programmation et peut traduire du langage naturel en code exécutable. Disponible en accès limité via une API.

**Contexte**

OpenAI publie Codex, un modèle dérivé de GPT-3 entraîné spécifiquement sur du code source public — GitHub en tête. L'annonce intervient à un moment où la compétition sur la génération de code s'intensifie : DeepMind, GitHub lui-même (avec Copilot, qui tourne précisément sur Codex en backend), et plusieurs startups comme Tabnine ou Kite occupent déjà le terrain. Ce n'est pas un modèle de langage généraliste qu'on détourne vers le code : c'est un fine-tune ciblé, avec un corpus d'entraînement dominé par du texte de programmation, ce qui modifie structurellement la distribution des tokens et les capacités de complétion.

Le timing est aussi stratégique sur le plan commercial. OpenAI ouvre Codex en accès limité via API, ce qui signifie que le modèle n'est pas disponible en self-serve immédiat — il faut candidater. Cette friction volontaire sert deux objectifs : contrôler la montée en charge infrastructure et construire une liste d'attente qui génère de la pression sociale et de la couverture presse. C'est le même playbook que GPT-3 en 2020.

**Les faits clés**

- **Base : GPT-3** — Codex est un descendant direct, fine-tuné sur des milliards de lignes de code public, principalement issu de dépôts GitHub. - **12+ langages supportés** — Python est le langage le mieux performant selon OpenAI ; JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript, Shell, et d'autres sont également couverts. - **Traduction langage naturel → code exécutable** — la capacité centrale : un commentaire en anglais ou une description de fonction suffit à générer du code fonctionnel dans le langage cible. - **Accès API en beta privée** — pas de pricing public annoncé au lancement, accès sur candidature uniquement. - **GitHub Copilot propulsé par Codex** — le produit grand public de GitHub (annoncé en preview technique simultanément) est le premier déploiement à grande échelle de ce modèle, intégré directement dans VS Code. - **Benchmark HumanEval** — OpenAI introduit HumanEval, un jeu de 164 problèmes de programmation originaux pour évaluer la génération de code ; Codex résout ~28,8 % des problèmes en un seul essai (pass@1), contre ~0 % pour GPT-3 brut sur les mêmes tâches.

**Pourquoi ça compte**

Le chiffre de 28,8 % sur HumanEval est à la fois impressionnant et révélateur des limites. GPT-3 sans fine-tune est quasi inutile sur des tâches de code structuré — Codex représente donc un saut qualitatif réel sur ce segment. Mais 28,8 % signifie aussi que 71,2 % des problèmes ne sont pas résolus en un seul passage, ce qui positionne Codex comme un outil d'assistance, pas d'autonomie. Les perdants immédiats sont les outils de complétion de code basés sur des modèles plus anciens ou des approches statistiques légères : Tabnine (basé sur GPT-2 à l'époque), Kite, et les moteurs de complétion natifs des IDE. GitHub Copilot, en absorbant Codex directement dans l'éditeur, court-circuite ces acteurs en s'intégrant là où le développeur passe déjà son temps. OpenAI, de son côté, sécurise une position dans la chaîne de valeur du développement logiciel — un marché avec une disposition à payer professionnelle bien établie, contrairement aux usages grand public de GPT-3.

**Pour qui ça change vraiment quelque chose**

Pour les développeurs individuels, Codex via Copilot réduit concrètement le temps passé sur du code boilerplate, la recherche de syntaxe, et la traduction de logique métier en implémentation. L'impact est asymétrique : un développeur junior ou un non-développeur technique (data analyst, chercheur) gagne proportionnellement plus qu'un senior qui connaît déjà sa syntaxe par cœur. Pour les founders et équipes produit, l'API Codex ouvre la voie à des produits "no-code augmenté" ou des interfaces conversationnelles vers des systèmes techniques. Pour les entreprises, la question de la propriété intellectuelle du code généré à partir de dépôts publics est déjà soulevée — un risque légal non résolu au moment du lancement, qui freinera l'adoption en contexte enterprise avant que des clarifications contractuelles n'arrivent.

Lire la source

Ton avis ?

OpenAI Génération de code GPT

Résumé généré par Claude — vérifié par l'humain

Introducing Codex

Autres angles sur ce sujet