Hugging Face Blog·6 septembre 2023

Spread Your Wings: Falcon 180B is here

Signal

Hype

En 3 lignesHugging Face annonce le lancement de Falcon 180B, un grand modèle de langage open-source avec 180 milliards de paramètres. Le modèle est disponible en versions base et instruction-tuned, conçu pour des tâches de génération de texte et de raisonnement complexe.

## Falcon 180B : ce que signifie vraiment 180 milliards de paramètres en open-source

### 1. Le contexte immédiat

TII (Technology Innovation Institute, Abu Dhabi) et Hugging Face publient Falcon 180B, le plus grand modèle open-source disponible publiquement au moment de l'annonce. Avec 180 milliards de paramètres, il dépasse LLaMA 2 70B de Meta (70B) et dépasse également Falcon 40B, le précédent flagship de TII. Pour situer l'échelle : GPT-3 comptait 175B paramètres, et Falcon 180B le dépasse donc légèrement sur ce seul critère de taille.

Le modèle est entraîné sur RefinedWeb, un corpus de 3,5 trillions de tokens dérivé d'un crawl web filtré et dédupliqué — une approche que TII a documentée comme produisant de meilleures performances que des mélanges de datasets hétérogènes à volume équivalent. Falcon 180B a consommé environ 4 000 GPU A100 pendant plusieurs mois, ce qui représente un coût de compute inaccessible pour la quasi-totalité des acteurs académiques.

### 2. Les benchmarks : où ça tient, où ça coince

Sur les benchmarks standards publiés au lancement, Falcon 180B se positionne entre LLaMA 2 70B et GPT-4. Plus précisément : il surpasse LLaMA 2 70B sur HellaSwag, MMLU et TruthfulQA, mais reste en dessous de GPT-4 sur les tâches de raisonnement complexe et de code. Sur MMLU (mesure de connaissance multidisciplinaire), Falcon 180B atteint environ 70,4 contre 68,9 pour LLaMA 2 70B — un écart réel mais non spectaculaire.

La version instruction-tuned (Falcon 180B-Chat) est fine-tunée sur des données de conversation et d'instructions, mais TII n'a pas publié de résultats RLHF comparables à ceux de LLaMA 2-Chat, ce qui rend la comparaison sur les tâches d'alignement difficile à objectiver.

Point critique pour les praticiens : Falcon 180B nécessite environ 400 Go de VRAM en fp16 pour l'inférence complète, soit 8× A100 80Go minimum. En pratique, le déploiement autonome est réservé aux équipes disposant d'infrastructure H100/A100 multi-GPU. La quantisation 4-bit via bitsandbytes ramène ce besoin à ~90-100 Go, rendant le modèle accessible sur 2× A100 80Go, mais avec une dégradation mesurable des performances.

### 3. La licence : open-source avec astérisque

Falcon 180B est publié sous la Falcon License, une licence custom qui autorise l'usage commercial mais impose des restrictions au-delà de 1 million d'utilisateurs mensuels actifs — seuil à partir duquel une négociation commerciale avec TII devient obligatoire. Ce n'est pas une licence Apache 2.0 ni MIT. Pour les startups en phase de croissance rapide, ce plafond crée une incertitude juridique non négligeable.

Comparaison directe : LLaMA 2 de Meta utilise une licence similaire avec un seuil à 700 millions d'utilisateurs mensuels — un plafond pratiquement inatteignable pour la majorité. Le seuil de Falcon à 1 million est beaucoup plus contraignant pour des applications B2C à croissance rapide.

### 4. Qui perd, qui gagne

**Gagnants immédiats** : les équipes de recherche et les entreprises mid-size avec infrastructure GPU qui cherchaient un modèle de frontier accessible sans dépendance aux APIs OpenAI ou Anthropic. Falcon 180B offre une alternative crédible pour des cas d'usage où la confidentialité des données impose un déploiement on-premise.

**Perdants potentiels** : Mistral AI et les équipes construisant sur LLaMA 2 70B voient leur modèle de référence dépassé en taille. Les fournisseurs d'API qui monétisent l'accès à des modèles 70B-class (Together AI, Replicate, Anyscale) doivent désormais intégrer un modèle 2,5× plus lourd pour rester compétitifs sur le segment haute performance.

**Nuance importante** : la taille seule ne détermine pas l'utilité. Mistral 7B, sorti quelques semaines après Falcon 180B, démontrera qu'un modèle 25× plus petit peut surpasser Falcon 40B sur plusieurs benchmarks grâce à une architecture et des données d'entraînement optimisées. L'ère du scaling pur comme proxy de qualité est déjà en train de se fissurer au moment même où Falcon 180B est annoncé.

Falcon 180B marque un point de bascule symbolique : pour la première fois, un modèle à l'échelle de GPT-3 est disponible en poids ouverts avec usage commercial possible. Mais le coût d'inférence réel et les contraintes de licence en font un outil pour une minorité d'acteurs bien équipés, pas une démocratisation large de la frontier IA.

Lire la source

Ton avis ?

Open source Llama Benchmarks

Résumé généré par Claude — vérifié par l'humain

Spread Your Wings: Falcon 180B is here

Autres angles sur ce sujet