OpenAI Blog·23 janvier 2020

Scaling laws for neural language models

Signal

Hype

En 3 lignesOpenAI publie une étude sur les lois d'échelle des modèles de langage neuraux, établissant des relations prévisibles entre la taille du modèle, les données d'entraînement et la performance. Les résultats permettent d'optimiser l'allocation des ressources de calcul.

## Lois d'échelle : quand OpenAI formalise la physique de l'entraînement LLM

### 1. Ce qui est établi

La publication de Kaplan et al. (OpenAI) pose des relations empiriques précises entre trois variables : le nombre de paramètres N, la taille du corpus d'entraînement D (en tokens), et le budget de calcul C (en FLOPs). La conclusion centrale est que la perte de cross-entropie sur un modèle de langage suit des lois de puissance (power laws) stables sur plusieurs ordres de grandeur — typiquement 6 à 7 décades pour N et D. La formulation clé : L(N) ∝ N^(-0.076), L(D) ∝ D^(-0.095), avec des exposants remarquablement stables quelle que soit l'architecture Transformer testée.

Avant ce papier, l'allocation des ressources de calcul relevait largement de l'empirisme artisanal. Les équipes augmentaient la taille des modèles ou les données d'entraînement par intuition ou par benchmarking exhaustif. Les lois d'échelle transforment ce processus en optimisation analytique : pour un budget C fixé, il existe un ratio N/D optimal qui minimise la perte finale.

### 2. Pourquoi le signal est élevé

Ce papier n'est pas une amélioration incrémentale — c'est un cadre prédictif. Trois implications concrètes pour les praticiens :

**Allocation compute-optimale.** La relation C ≈ 6ND (coût approximatif d'un forward+backward pass) combinée aux lois de puissance permet de calculer, avant tout entraînement, le point d'efficacité maximale. Le résultat contre-intuitif : pour un budget fixe, il vaut mieux entraîner un modèle plus petit sur plus de données qu'un grand modèle sous-entraîné. Ce résultat sera formalisé deux ans plus tard par Hoffmann et al. (DeepMind) dans le papier Chinchilla, qui corrigera les exposants de Kaplan vers des ratios encore plus favorables aux données (≈20 tokens par paramètre).

**Prévisibilité des gains.** Les courbes de scaling permettent d'extrapoler la performance d'un modèle 10× plus grand à partir de runs moins coûteux. En pratique, cela réduit le coût de la recherche en architecture : pas besoin de lancer un entraînement complet pour évaluer une variante.

**Indépendance architecturale partielle.** Les lois tiennent pour différentes profondeurs, largeurs et nombres de têtes d'attention — tant que N reste le paramètre de contrôle. Cela suggère que l'architecture fine importe moins que l'échelle brute, ce qui justifiera les investissements massifs dans GPT-3 (175B paramètres, 2020) puis dans les modèles suivants.

### 3. Les perdants et les angles morts

Ce cadre a orienté l'industrie vers une course aux paramètres qui s'est avérée partiellement mal calibrée. GPT-3 (175B) a été entraîné avec environ 300B tokens — soit un ratio N/D largement sous-optimal selon les corrections Chinchilla. En d'autres termes, les lois de Kaplan ont été correctement comprises sur la forme mais mal appliquées sur les ratios : l'industrie a sur-investi dans les paramètres et sous-investi dans les données pendant 2-3 ans.

Les perdants directs sont les équipes qui ont dimensionné leurs modèles sur la base des exposants originaux de Kaplan sans attendre les corrections de 2022. Les modèles comme Gopher (280B, DeepMind, 2021) ou les premières versions de Megatron-Turing NLG (530B, Microsoft/NVIDIA) illustrent ce sur-paramétrage relatif.

Autre angle mort : les lois d'échelle de Kaplan sont mesurées sur la perte de validation (cross-entropy), pas sur les performances downstream (MMLU, HumanEval, raisonnement). Des travaux ultérieurs montreront que certaines capacités émergentes apparaissent de façon discontinue — les "emergent abilities" documentées par Wei et al. (2022) — ce qui brise partiellement la prévisibilité lisse des power laws pour les tâches applicatives.

### 4. Impact structurel

Ce papier est la fondation théorique qui justifie les investissements en infrastructure à l'échelle des milliards de dollars. Sans un cadre prédictif crédible, convaincre des investisseurs ou des directions de dépenser 10-100M$ en compute pour un seul run d'entraînement est difficile. Les lois d'échelle fournissent la courbe ROI attendue.

Pour les praticiens aujourd'hui : les exposants Chinchilla (2022) remplacent ceux de Kaplan pour le dimensionnement compute-optimal. Mais la structure du raisonnement — identifier les power laws, calculer le point d'efficacité, extrapoler — reste le standard de l'industrie pour tout projet LLM sérieux.

Lire la source

Ton avis ?

OpenAI Benchmarks Papers

Résumé généré par Claude — vérifié par l'humain

Scaling laws for neural language models

Autres angles sur ce sujet