Hugging Face Blog·23 juillet 2024

Llama 3.1 - 405B, 70B & 8B with multilinguality and long context

Signal

Hype

En 3 lignesMeta lance Llama 3.1 en trois tailles (405B, 70B, 8B) avec support multilingue et contexte étendu. Les modèles supportent 128k tokens et couvrent 8 langues. Disponibles en open-source via Hugging Face.

## Llama 3.1 : Ce que signifient vraiment 405B paramètres en open-source

### 1. Le saut quantitatif

Meta publie simultanément trois modèles — 8B, 70B et 405B paramètres — sous licence open-source, tous avec une fenêtre de contexte de 128 000 tokens. C'est le point de rupture : avant cette sortie, aucun modèle open-source ne dépassait 72B paramètres avec un contexte aussi long. Le 405B représente le premier modèle frontier-class accessible sans API fermée ni accord commercial restrictif.

Le support multilingue couvre 8 langues : anglais, allemand, français, italien, portugais, hindi, espagnol et thaï. Ce n'est pas un ajout cosmétique — les benchmarks internes de Meta indiquent des performances compétitives sur MGSM (raisonnement mathématique multilingue) face à GPT-4o et Claude 3.5 Sonnet sur ces langues cibles.

### 2. Pourquoi 128k tokens change les usages concrets

La fenêtre de 128k tokens (contre 8k pour Llama 3 original) ouvre des cas d'usage qui étaient structurellement impossibles sur les versions précédentes : ingestion de codebase complet, analyse de contrats longs, RAG sans chunking agressif, agents multi-étapes avec historique étendu. Pour les 70B et 8B, ce contexte étendu est particulièrement significatif car ces tailles sont déployables sur infrastructure standard — un 70B tient sur 2× A100 80GB en fp16, un 8B sur un seul GPU consommateur en quantization 4-bit.

Le 405B nécessite une infrastructure plus lourde (8× A100 ou H100 minimum en fp16), mais Meta a publié des poids en BF16 et des versions quantifiées FP8, rendant le déploiement accessible à des clusters mid-range. Hugging Face distribue les poids directement, avec intégration native dans transformers et TGI (Text Generation Inference).

### 3. Positionnement benchmark et ce que les chiffres cachent

Sur MMLU, le 405B atteint des scores comparables à GPT-4 (version 0613), et le 70B dépasse Llama 2 70B de ~15 points absolus. Sur HumanEval (code), le 405B score autour de 89%, ce qui le place au niveau de GPT-4o selon les évaluations publiées par Meta. Ces chiffres méritent deux nuances :

Premièrement, Meta évalue ses propres modèles — les benchmarks tiers indépendants (LMSYS Chatbot Arena, notamment) fourniront la validation externe. Deuxièmement, les benchmarks saturent : MMLU à 88%+ ne discrimine plus finement les capacités réelles sur des tâches de production complexes. Les praticiens devront conduire leurs propres évaluations sur leurs domaines spécifiques.

Le 8B est le modèle le plus intéressant économiquement : il surpasse Llama 2 70B sur la majorité des benchmarks tout en étant ~9× moins coûteux à inférer. Pour les applications à fort volume (classification, extraction, génération courte), c'est le point d'entrée rationnel.

### 4. Les perdants et les tensions

**Mistral AI** voit son positionnement « meilleur open-source » directement attaqué. Mixtral 8×22B, jusqu'ici référence open-source sur les tâches complexes, se retrouve sous pression sur le rapport performance/coût. **Cohere** et **AI21 Labs**, qui monétisent des modèles mid-size pour l'entreprise, font face à une concurrence gratuite sur leur segment cœur.

Du côté des API providers (Together AI, Fireworks, Replicate), la disponibilité immédiate des poids crée une pression sur les marges : les clients peuvent auto-héberger plutôt que payer à l'appel. C'est structurellement différent de GPT-4 ou Claude, qui restent derrière des API fermées.

La licence Llama 3.1 autorise l'utilisation commerciale et — point nouveau — permet d'utiliser les outputs pour entraîner d'autres modèles, y compris des modèles concurrents. C'est un changement par rapport à Llama 2 qui interdisait explicitement cet usage. Cela signifie que des acteurs comme Mistral ou des startups peuvent légalement distiller Llama 3.1 405B pour créer des modèles plus petits et plus efficaces.

La vraie question à 6 mois : est-ce que la communauté open-source peut maintenir le rythme de fine-tuning, d'instruction-tuning et d'alignement que Meta a industrialisé ? Les poids bruts sont disponibles, mais l'écart entre un modèle base et un assistant production-ready reste substantiel en ingénierie.

Lire la source

Ton avis ?

Llama Meta AI Open source Benchmarks

Résumé généré par Claude — vérifié par l'humain

Llama 3.1 - 405B, 70B & 8B with multilinguality and long context

Autres angles sur ce sujet