OpenAI Blog·5 janvier 2021

DALL·E: Creating images from text

Signal

Hype

En 3 lignesOpenAI présente DALL·E, un réseau de neurones capable de générer des images à partir de descriptions textuelles en langage naturel, couvrant un large éventail de concepts.

## DALL·E : Ce que l'annonce signifie vraiment pour la génération d'images

### 1. Le contexte technique

DALL·E est un transformeur autorégressif de 12 milliards de paramètres — la même architecture de base que GPT-3, mais entraîné sur des paires texte-image plutôt que sur du texte seul. OpenAI traite la génération d'image comme un problème de modélisation de séquences : les tokens de texte sont concaténés aux tokens d'image (encodés via une version discrète du VAE de OpenAI, dVAE, à 256×256 pixels), et le modèle apprend à prédire les tokens visuels suivants. Pas de GAN, pas de diffusion — une approche purement séquentielle qui exploite la puissance de mise à l'échelle déjà démontrée sur le texte.

Avant DALL·E, l'état de l'art en génération texte-image reposait principalement sur des architectures GAN conditionnelles (AttnGAN, DF-GAN, DM-GAN), capables de produire des images cohérentes sur des domaines étroits (oiseaux, fleurs, visages) mais échouant dès que la description sortait de la distribution d'entraînement. La généralisation zero-shot à des concepts arbitraires — "un avocat en armure de chevalier" ou "un daikon radis marchant un chien en laisse" — était hors de portée.

### 2. Ce qui change concrètement

DALL·E démontre trois capacités distinctes qui n'existaient pas ensemble dans un seul modèle :

- **Combinaison d'attributs** : associer un objet, une propriété et un contexte inédits ("un cube rouge sur une sphère bleue dans le style de Dalí"). - **Rendu de texte dans l'image** : intégrer des mots lisibles dans une scène visuelle, ce que les GAN géraient très mal. - **Transformations et relations spatiales** : comprendre "à gauche de", "au-dessus de", "à l'intérieur de" avec une fidélité raisonnable.

Le modèle est évalué via CLIP (également publié par OpenAI le même jour), qui sert de juge automatique pour sélectionner les meilleures générations parmi 512 candidats — une forme de reranking qui améliore significativement la qualité perçue. Sans ce reranking, la qualité brute est nettement inférieure : c'est un détail opérationnel important que les benchmarks publics tendent à masquer.

### 3. Les limites réelles et les perdants potentiels

DALL·E n'est pas déployé publiquement à ce stade — OpenAI publie des résultats de recherche, pas un produit. La résolution est limitée à 256×256, insuffisante pour la plupart des usages professionnels. Le modèle échoue sur les scènes complexes multi-objets avec des relations spatiales précises, et la cohérence des visages humains reste problématique.

Les perdants immédiats potentiels : les banques d'images pour les illustrations conceptuelles bas de gamme (icônes, illustrations éditoriales simples), et les outils de génération d'images basés sur GAN qui viennent de voir leur avantage compétitif s'éroder. Les studios de stock photography haut de gamme sont moins menacés à court terme, la résolution et la fidélité restant insuffisantes.

Pour les praticiens ML, l'implication architecturale est plus profonde : si un transformeur autorégressif généraliste peut surpasser des GAN spécialisés sur la généralisation zero-shot, cela remet en question l'investissement dans des architectures image-spécifiques. La mise à l'échelle brute semble battre l'inductive bias.

### 4. Ce qu'il faut surveiller

La publication simultanée de CLIP est la vraie infrastructure sous-jacente : un modèle vision-langage entraîné sur 400 millions de paires texte-image du web, capable d'évaluer la cohérence texte-image sans supervision humaine. CLIP va devenir un composant standard dans les pipelines de génération et d'évaluation — c'est lui qui permet le reranking à grande échelle.

La question ouverte : est-ce que l'approche autorégressive va tenir face aux modèles de diffusion qui émergent en parallèle (DDPM de Ho et al., 2020) ? Les modèles de diffusion offrent un meilleur contrôle du compromis qualité/diversité et une meilleure cohérence locale. La compétition entre ces deux paradigmes va définir l'état de l'art des 24 mois suivants — et spoiler : la diffusion va gagner, mais DALL·E aura posé les fondations conceptuelles du prompting texte-image.

Lire la source

Ton avis ?

OpenAI Génération d'images Vision

Résumé généré par Claude — vérifié par l'humain

DALL·E: Creating images from text

Autres angles sur ce sujet