OpenAI Blog·12 septembre 2024

Introducing OpenAI o1

Signal

Hype

En 3 lignesOpenAI présente o1, un modèle de raisonnement capable de résoudre des problèmes complexes en mathématiques, codage et sciences. Le modèle utilise un processus de réflexion interne avant de répondre, améliorant les performances sur les benchmarks difficiles.

## OpenAI o1 : ce que le « raisonnement interne » change concrètement

### 1. Ce qui est annoncé

OpenAI lance o1, un modèle qui rompt avec l'architecture de réponse directe de GPT-4. Avant de produire une sortie, o1 exécute une chaîne de pensée interne — un processus de réflexion masqué que l'utilisateur ne voit pas, mais dont la durée est variable et proportionnelle à la difficulté du problème. Ce n'est pas du chain-of-thought classique exposé dans le prompt : c'est un raisonnement entraîné par renforcement, opaque par design.

Les chiffres publiés sont précis : sur le benchmark AIME 2024 (compétition de mathématiques américaine de haut niveau), GPT-4o résout 12 % des problèmes. o1 en résout 74 %. Sur Codeforces, o1 atteint le 89e percentile des programmeurs humains. Sur le GPQA Diamond (questions de doctorat en chimie, biologie, physique), o1 dépasse le niveau des experts humains avec 78 % de réussite contre ~70 % pour un expert PhD moyen. Sur les examens de mathématiques de niveau olympiade (MATH benchmark), o1 atteint 94,8 % contre 60,3 % pour GPT-4o.

### 2. Pourquoi c'est structurellement différent

L'approche antérieure — scaling des paramètres et des données d'entraînement — montrait des rendements décroissants sur les tâches de raisonnement multi-étapes. o1 introduit un second axe de scaling : le **compute de test** (inference-time compute). Plus on alloue de tokens de réflexion interne, meilleures sont les performances. Cela signifie que la courbe de performance n'est plus fixée à l'entraînement : elle est modulable à l'exécution selon le budget de calcul accordé.

Concrètement, OpenAI publie aussi o1-mini, une version allégée optimisée pour le raisonnement STEM avec un coût d'inférence réduit, ciblant les cas d'usage où la vitesse prime sur la profondeur. o1-mini coûte 3 $/M tokens en entrée et 12 $/M en sortie ; o1-preview est à 15 $/M et 60 $/M — soit 3 à 6× plus cher que GPT-4o selon le sens.

### 3. Les perdants potentiels

**Anthropic et Claude 3.5 Sonnet** : Claude 3.5 était positionné comme le meilleur modèle de codage et de raisonnement du marché depuis juin 2024. o1 le dépasse sur les benchmarks de raisonnement pur, même si Claude conserve des avantages sur les tâches longues et la gestion de contexte étendu. La fenêtre de leadership d'Anthropic se referme plus vite que prévu.

**Google DeepMind** : Gemini Ultra 1.5 avait des scores MATH comparables à GPT-4o. Le saut de GPT-4o à o1 sur ce benchmark (+34 points) place Google dans une position défensive sur le segment scientifique et académique.

**Les startups de « reasoning augmentation »** : des outils comme Cognition (Devin), ou les frameworks de scaffolding multi-agents (AutoGPT, LangGraph) qui compensaient les limites de raisonnement des LLMs de base voient leur proposition de valeur partiellement absorbée. Si le modèle raisonne mieux nativement, la couche d'orchestration externe devient moins différenciante.

**Les utilisateurs qui paient pour la vitesse** : o1 est significativement plus lent que GPT-4o. Le temps de réponse peut atteindre plusieurs dizaines de secondes sur des problèmes complexes. Pour les applications conversationnelles temps-réel, ce n'est pas un substitut.

### 4. Ce qu'il faut surveiller

Premier point critique : **l'opacité du raisonnement interne est un choix délibéré de sécurité**. OpenAI indique explicitement que montrer la chaîne de pensée complète créerait des risques d'alignement (le modèle pourrait apprendre à dissimuler ses intentions dans la partie visible). C'est une décision qui aura des implications réglementaires — notamment en Europe où l'explicabilité des systèmes IA à haut risque est une exigence de l'AI Act.

Deuxième point : o1 est actuellement disponible en preview pour les abonnés ChatGPT Plus et Team, avec des limites de rate (30 messages/semaine pour o1-preview, 50 pour o1-mini). L'accès API est ouvert aux développeurs de niveau 5. La version finale — simplement appelée « o1 » sans suffixe — n'est pas encore déployée.

Troisième point : OpenAI mentionne une famille o1 à venir, suggérant que ce paradigme inference-time scaling va s'étendre à des modèles multimodaux et à des contextes plus longs. Le vrai test sera de voir si les gains de raisonnement se transfèrent sur des tâches du monde réel (agents, code en production, recherche scientifique assistée) plutôt que de rester confinés aux benchmarks académiques — une distinction que l'industrie a appris à faire depuis GPT-4.

Lire la source

Ton avis ?

OpenAI GPT Raisonnement Benchmarks

Résumé généré par Claude — vérifié par l'humain

Introducing OpenAI o1

Autres angles sur ce sujet