OpenAI Blog·24 avril 2024

Introducing ChatGPT and Whisper APIs

Signal

Hype

En 3 lignesOpenAI lance les APIs ChatGPT et Whisper, permettant aux développeurs d'intégrer le modèle de conversation et la reconnaissance vocale dans leurs applications. Les APIs offrent un accès programmatique aux capacités de ChatGPT et de transcription audio de Whisper.

## Ouverture des APIs ChatGPT et Whisper : ce que ça change structurellement

### 1. Le fait brut et son contexte immédiat

OpenAI ouvre l'accès programmatique à `gpt-3.5-turbo`, le modèle sous-jacent de ChatGPT, via une API dédiée tarifée à **0,002 $ par 1 000 tokens** — soit environ 10× moins cher que les endpoints GPT-3 `text-davinci-003` précédemment disponibles. Simultanément, Whisper v2-large devient accessible via API à **0,006 $ la minute** de transcription audio. Avant cette annonce, les développeurs voulant intégrer des capacités conversationnelles de niveau ChatGPT devaient soit passer par les modèles Davinci (coût prohibitif à l'échelle), soit maintenir leurs propres fine-tunes, soit attendre des accès enterprise négociés au cas par cas.

### 2. Pourquoi le pricing est le signal le plus important

La réduction de coût de 90 % sur le modèle conversationnel n'est pas un ajustement marginal : elle franchit plusieurs seuils économiques critiques. À 0,002 $/1k tokens, une conversation de 500 échanges (~750k tokens au total) coûte environ **1,50 $**. C'est le territoire où des use cases auparavant non rentables — support client automatisé, tuteurs personnalisés, assistants embarqués dans des apps B2C freemium — deviennent viables sans subvention. Le modèle `text-davinci-003` à ~0,02 $/1k tokens rendait ces mêmes scénarios économiquement fragiles dès qu'on passait à l'échelle.

Pour Whisper, l'API élimine la friction opérationnelle majeure : jusqu'ici, utiliser Whisper en production nécessitait de gérer soi-même l'infrastructure GPU (coût, latence, maintenance). À 0,006 $/minute, une heure de transcription revient à **0,36 $**, compétitif face à Google Speech-to-Text (0,016 $/15 secondes en standard, soit ~0,064 $/minute) et nettement en dessous d'AWS Transcribe sur les volumes moyens.

### 3. L'architecture technique : format `ChatML` et gestion du contexte

L'endpoint `gpt-3.5-turbo` introduit un format de message structuré (`system`, `user`, `assistant`) qui diffère fondamentalement du prompt completion classique. Ce format `ChatML` impose une discipline de conception : le développeur doit explicitement gérer le contexte conversationnel, injecter les instructions système séparément du contenu utilisateur, et construire l'historique manuellement à chaque appel. C'est plus verbeux qu'un simple prompt, mais cela force une séparation nette entre instruction et contenu — ce qui réduit les risques de prompt injection naïve et facilite l'audit des comportements.

La fenêtre de contexte reste à **4 096 tokens** pour `gpt-3.5-turbo` au lancement, identique à GPT-3. Pour les applications nécessitant de longues conversations ou de larges documents, la gestion du contexte (résumé glissant, retrieval augmenté) reste une contrainte d'ingénierie non résolue par l'API elle-même.

### 4. Perdants potentiels et repositionnements forcés

**Cohere et AI21 Labs** voient leur proposition de valeur principale — LLMs accessibles via API à coût raisonnable — directement attaquée. Cohere facturait jusqu'ici ses modèles `command` à des tarifs comparables à Davinci ; le nouveau pricing OpenAI crée une pression immédiate sur leurs grilles tarifaires.

**Les startups de transcription audio** (AssemblyAI, Rev AI, Deepgram) font face à un concurrent qui combine qualité Whisper (meilleure précision multilingue que la plupart des alternatives sur les benchmarks publics) et pricing agressif. AssemblyAI facture ~0,015 $/minute en standard — 2,5× plus cher que Whisper API.

**Les intégrateurs qui avaient construit des abstractions sur GPT-3** (LangChain, Dust, etc.) doivent adapter leurs pipelines au nouveau format de message. Ce n'est pas un breaking change catastrophique, mais c'est du travail de migration non planifié.

Enfin, **Microsoft** — partenaire et investisseur — bénéficie directement via Azure OpenAI Service, mais la disponibilité directe via api.openai.com réduit l'avantage différenciant qu'Azure pouvait mettre en avant pour les clients enterprise hésitants. La coexistence des deux canaux crée une tension de go-to-market que les deux parties devront gérer.

Lire la source

Ton avis ?

OpenAI GPT Voix Outils

Résumé généré par Claude — vérifié par l'humain

Introducing ChatGPT and Whisper APIs

Autres angles sur ce sujet