OpenAI Blog·13 mai 2024

Spring Update

Signal

Hype

En 3 lignesOpenAI lance GPT-4o et élargit l'accès gratuit à ChatGPT avec davantage de capacités. Le modèle améliore les performances multimodales et la vitesse de traitement.

## GPT-4o : Ce que l'annonce implique vraiment

### 1. Le contexte immédiat

OpenAI sort GPT-4o (le « o » pour *omni*) et redistribue simultanément l'accès gratuit à ChatGPT vers le haut. Avant cette annonce, la frontière était nette : GPT-4 restait réservé aux abonnés Plus (20 $/mois), les utilisateurs gratuits étant cantonnés à GPT-3.5. GPT-4o efface partiellement cette ligne en devenant accessible sur le tier gratuit, avec des limites de débit non encore précisées publiquement.

Le modèle est présenté comme multimodal natif — texte, audio, image traités dans un pipeline unifié plutôt que via des modules séparés comme c'était le cas avec GPT-4V + Whisper + TTS. OpenAI annonce une latence audio de l'ordre de 232 ms en moyenne (contre 2,8 secondes pour le pipeline précédent GPT-4 + Whisper), ce qui place la réponse vocale dans la plage de la conversation humaine naturelle.

### 2. Ce qui change techniquement

L'architecture « omni » signifie que le modèle ingère et génère du texte, de l'audio et des images dans le même réseau de neurones, sans transcodage intermédiaire. Concrètement : le modèle peut détecter l'émotion dans la voix, adapter son ton en temps réel, lire une expression faciale via la caméra et répondre de façon cohérente à ces trois flux simultanément.

Sur les benchmarks publiés par OpenAI : - MMLU (texte) : GPT-4o atteint 88,7 %, contre 86,4 % pour GPT-4 Turbo - HumanEval (code) : 90,2 % vs 87,1 % pour GPT-4 Turbo - Vitesse de génération de tokens : environ 2× plus rapide que GPT-4 Turbo - Coût API : 5 $/million de tokens en entrée, 15 $/million en sortie — soit une réduction de 50 % par rapport aux tarifs GPT-4 Turbo (10 $/M et 30 $/M)

Ces chiffres positionnent GPT-4o comme strictement supérieur à GPT-4 Turbo sur les trois axes classiques : qualité, vitesse, coût.

### 3. Les gagnants et les perdants

**Gagnants directs :** - Les développeurs sur l'API OpenAI voient leur coût d'inférence divisé par deux du jour au lendemain, sans migration de code si leur intégration est déjà sur le endpoint GPT-4 Turbo. - Les utilisateurs du tier gratuit accèdent à un modèle de niveau GPT-4 pour la première fois, ce qui rend l'argument commercial de l'abonnement Plus plus difficile à justifier à court terme (OpenAI compense en réservant des quotas plus élevés et des fonctionnalités comme la mémoire persistante aux abonnés). - Les cas d'usage voix/temps réel (assistants embarqués, call centers, interfaces accessibles) deviennent économiquement viables là où la latence de 2,8 s était rédhibitoire.

**Perdants potentiels :** - **Anthropic** : Claude 3 Opus était jusqu'ici le seul concurrent crédible de GPT-4 sur les benchmarks de raisonnement. GPT-4o le dépasse sur MMLU et HumanEval tout en coûtant moins cher (Opus : 15 $/M en entrée, 75 $/M en sortie). - **Google DeepMind** : Gemini 1.5 Pro avait misé sur la fenêtre de contexte longue (1M tokens) comme différenciateur. GPT-4o ne comble pas cet écart (128k tokens), mais la supériorité multimodale native et le pricing agressif réduisent l'attrait de Gemini pour les nouveaux projets. - **ElevenLabs, AssemblyAI, et les spécialistes audio** : si GPT-4o gère nativement la transcription, la synthèse et la compréhension émotionnelle de la voix dans un seul appel API, la proposition de valeur des couches audio spécialisées s'érode significativement. - **Les abonnés ChatGPT Plus** : payer 20 $/mois devient moins évident si le tier gratuit reçoit GPT-4o. OpenAI devra accélérer la différenciation (plugins avancés, mémoire, capacités agents) pour maintenir le taux de conversion.

### 4. Ce qu'il faut surveiller

La vraie question n'est pas la qualité du modèle — les benchmarks sont clairs — mais la vitesse de déploiement de la couche vocale temps réel dans des produits tiers. OpenAI a annoncé une API Voice en accès limité ; tant que celle-ci n'est pas ouverte, les 232 ms de latence restent une démonstration plutôt qu'une infrastructure de production.

Par ailleurs, la décision de mettre GPT-4o sur le tier gratuit est autant une manœuvre de distribution qu'une décision produit : avec Gemini intégré nativement dans Android et Google Search, OpenAI doit maximiser la surface d'exposition de son modèle. Abaisser la barrière d'entrée est la réponse directe à la distribution captive de Google. Le coût de cette stratégie — cannibalisation partielle des abonnements Plus — est manifestement jugé acceptable.

Lire la source

Ton avis ?

GPT OpenAI

Résumé généré par Claude — vérifié par l'humain

Spring Update

Autres angles sur ce sujet