OpenAI Blog·31 janvier 2025

OpenAI o3-mini

Signal

Hype

En 3 lignesOpenAI lance o3-mini, un modèle de raisonnement compact et efficace. Conçu pour les tâches complexes avec latence réduite et coûts optimisés, il offre des performances proches d'o3 sur les benchmarks de code et mathématiques.

## o3-mini : le raisonnement haute performance sans le prix d'o3

### 1. Ce qui est annoncé OpenAI déploie o3-mini, un modèle de raisonnement de la famille o3 optimisé pour la latence et le coût. Il succède à o1-mini dans la hiérarchie des modèles compacts, mais avec une architecture de raisonnement chaîné héritée d'o3. Trois niveaux d'effort de raisonnement sont exposés à l'utilisateur : low, medium, high — permettant un arbitrage explicite entre vitesse et profondeur d'inférence.

### 2. Les chiffres qui comptent Sur AIME 2024 (compétition de mathématiques avancées), o3-mini (high) atteint 87,3 % contre 63,6 % pour o1 et 60,0 % pour o1-mini — soit un gain de +23,7 points sur le modèle qu'il est censé remplacer. Sur Codeforces, o3-mini (high) affiche un rating Elo de 2073, dépassant o1 (1891) et se rapprochant d'o3 full (estimé >2100 dans les évaluations internes). Sur GPQA Diamond (raisonnement scientifique expert), o3-mini (high) score 79,7 % contre 75,7 % pour o1. La latence médiane en mode low est inférieure à celle d'o1-mini sur des tâches de code équivalentes, selon les données OpenAI. Le coût API est fixé à 1,10 $/million de tokens en entrée et 4,40 $/million en sortie — à comparer aux 15 $/M et 60 $/M d'o1. C'est un facteur ~13,6x moins cher en sortie.

### 3. Pourquoi c'est structurellement important La dynamique ici n'est pas une simple amélioration incrémentale. o3-mini matérialise une thèse qu'OpenAI teste depuis o1 : le raisonnement chaîné (chain-of-thought interne, non exposé) peut être distillé dans un modèle plus petit sans effondrement des capacités sur les domaines formels — mathématiques, code, sciences. Avant cette annonce, les praticiens devaient choisir entre o1-mini (rapide, moins précis sur les maths compétitives) ou o1/o3 full (précis, coûteux, lent). o3-mini en mode medium couvre désormais la majorité des cas d'usage professionnels à un coût marginal proche de GPT-4o-mini.

L'accès est déployé simultanément dans ChatGPT (utilisateurs Plus, Team, Pro) et via l'API, avec support du function calling, structured outputs et streaming — fonctionnalités absentes d'o1-mini au lancement. C'est un signal que ce modèle est conçu pour l'intégration en production, pas seulement pour les benchmarks.

### 4. Les perdants et les tensions **Anthropic / Claude 3.5 Sonnet** : sur les benchmarks de code, o3-mini (high) surpasse Sonnet sur HumanEval et SWE-bench lite selon les chiffres publiés. La proposition de valeur de Sonnet — raisonnement fort à coût raisonnable — est directement attaquée.

**Google Gemini Flash Thinking** : positionnement similaire (modèle de raisonnement économique), mais o3-mini publie des chiffres AIME et Codeforces nettement supérieurs. Google devra répondre avant Gemini 2.0 Pro GA.

**Les utilisateurs d'o1-mini** : migration implicitement forcée. OpenAI ne déprécie pas o1-mini immédiatement, mais le différentiel de performance rend le maintien sur o1-mini difficile à justifier pour tout nouveau projet.

**Tension interne OpenAI** : o3-mini cannibale partiellement o1 standard (15$/M en entrée). Si les équipes migrent vers o3-mini high pour les tâches de raisonnement, le revenu par token d'o1 s'érode. C'est un pari délibéré sur le volume plutôt que sur la marge unitaire — cohérent avec la stratégie d'adoption massive, mais qui compresse les marges à court terme.

Un point de vigilance pour les praticiens : o3-mini n'a pas de vision (pas de traitement d'images), contrairement à GPT-4o. Pour les pipelines multimodaux, o3-mini ne remplace pas GPT-4o — il le complète sur la branche texte/code/raisonnement formel. Les équipes qui ont construit des workflows hybrides devront maintenir deux modèles en parallèle.

Lire la source

Ton avis ?

OpenAI GPT Raisonnement Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

OpenAI o3-mini

Autres angles sur ce sujet