OpenAI Blog·14 mars 2023

GPT-4

Signal

Hype

En 3 lignesOpenAI déploie GPT-4, modèle multimodal acceptant images et texte. Performances au niveau humain sur benchmarks professionnels et académiques, mais capacités inférieures aux humains dans de nombreux scénarios réels.

## GPT-4 : Ce que les benchmarks révèlent — et ce qu'ils cachent

### 1. Le saut qualitatif réel

GPT-4 marque le passage d'un modèle texte-seul à un modèle multimodal natif : il accepte désormais des images en entrée, en plus du texte, et produit du texte en sortie. Ce n'est pas un ajout cosmétique. La capacité à raisonner sur du contenu visuel — graphiques, captures d'écran, schémas médicaux, code manuscrit — ouvre des cas d'usage que GPT-3.5 ne pouvait structurellement pas adresser.

Sur les benchmarks professionnels et académiques standardisés, les chiffres sont nets : GPT-4 atteint le percentile ~90 au barreau américain (Uniform Bar Exam), contre le percentile ~10 pour GPT-3.5. Au USMLE (examen médical américain), il passe la barre des 60% requis pour la certification. Au GRE Verbal, il se situe dans le top 99e percentile. Ces scores ne sont pas des curiosités statistiques — ils signalent qu'un modèle de langage peut désormais opérer à un niveau de compétence formellement certifiable dans des domaines à haute valeur réglementaire.

### 2. Ce que les benchmarks ne disent pas

OpenAI est explicite sur la limite centrale : GPT-4 reste "less capable than humans in many real-world scenarios". Cette formulation mérite d'être décomposée. Les benchmarks académiques mesurent la reconnaissance de patterns sur des corpus d'entraînement massifs — ils ne mesurent pas le raisonnement causal, la gestion de l'ambiguïté contextuelle profonde, ni la fiabilité sur des tâches longues et multi-étapes sans supervision humaine.

Le modèle hérite également des limitations structurelles de ses prédécesseurs : hallucinations factuelles, sensibilité au prompt engineering, absence de mémoire persistante native, et une date de coupure des données d'entraînement qui le rend aveugle aux événements récents. La multimodalité image→texte est unilatérale : GPT-4 ne génère pas d'images (contrairement à DALL-E), ce qui délimite précisément son périmètre.

### 3. Repositionnement concurrentiel et perdants potentiels

L'annonce compresse brutalement l'espace concurrentiel sur plusieurs fronts :

**Outils spécialisés de NLP juridique et médical** : des startups comme Harvey (droit) ou des solutions de NLP clinique construites sur des modèles fine-tunés GPT-3.5 ou des LLM open-source voient leur avantage différentiel s'éroder. Si GPT-4 passe le barreau au 90e percentile en zero-shot, le coût de construction d'une couche spécialisée par-dessus un modèle généraliste chute drastiquement.

**Fournisseurs de vision par ordinateur classique** : l'intégration image+texte dans un seul modèle réduit le besoin de pipelines hybrides (OCR → NLP, ou vision model → LLM). Les intégrateurs qui monétisaient cette complexité d'assemblage sont directement menacés.

**Google et le marché de la recherche** : l'intégration de GPT-4 dans Bing (déjà annoncée via le partenariat Microsoft) positionne un moteur de recherche avec capacité de raisonnement multimodal contre un Google qui n'a pas encore déployé Gemini. Le timing est stratégiquement défavorable pour Mountain View.

**Anthropic et les LLM alternatifs** : Claude (Anthropic) et les modèles open-source comme LLaMA (Meta, sorti quelques jours avant) se retrouvent immédiatement repositionnés comme alternatives de second rang sur les benchmarks formels, même si leurs propositions de valeur sur la sécurité ou le coût restent distinctes.

### 4. Ce que les praticiens doivent surveiller maintenant

L'accès à GPT-4 se fait via l'API OpenAI avec liste d'attente au lancement, et via ChatGPT Plus (20$/mois). Le coût par token est significativement plus élevé que GPT-3.5-turbo — un facteur critique pour les applications à volume élevé. Les équipes qui ont optimisé leurs prompts et leurs architectures pour GPT-3.5 devront réévaluer le ratio coût/performance avant migration systématique.

La fenêtre de contexte annoncée atteint 32 000 tokens dans la version étendue (contre 4 096 pour GPT-3.5-turbo standard), ce qui change fondamentalement les architectures de retrieval augmenté : moins besoin de chunking agressif, possibilité de passer des documents entiers en contexte.

Enfin, la question de la reproductibilité des benchmarks reste ouverte. OpenAI n'a pas publié les poids du modèle ni le détail complet de la méthodologie d'évaluation — une décision cohérente avec leur pivot vers le modèle fermé, mais qui empêche la vérification indépendante des performances annoncées.

Lire la source

Ton avis ?

GPT OpenAI Vision Benchmarks

Résumé généré par Claude — vérifié par l'humain

GPT-4

Autres angles sur ce sujet