Retour au feed
Simon Willison·

GLM-5.2 is probably the most powerful text-only open weights LLM

Signal
82
Hype
35
En 3 lignesZ.ai a publié GLM-5.2 (753B paramètres, 40 actifs en MoE) sous licence MIT le 16 juin. Modèle texte uniquement avec fenêtre de contexte de 1M tokens. Classé 1er sur l'Artificial Analysis Intelligence Index v4.1 (score 51) devant DeepSeek V4 Pro et Kimi K2.6. 2e sur Code Arena WebDev derrière Claude Fable 5.

## GLM-5.2 : Premier modèle open weights à dépasser les frontières propriétaires sur les benchmarks texte

### 1. Ce qui vient de changer

Z.ai a publié le 16 juin GLM-5.2 sous licence MIT — poids complets, usage commercial libre. C'est un MoE de 753B paramètres totaux avec 40B actifs, pesant 1,51 To sur disque. La fenêtre de contexte passe de 200K (GLM-5.1) à 1M tokens. Sur l'Artificial Analysis Intelligence Index v4.1, il obtient un score de 51, contre 44 pour MiniMax-M3, 44 pour DeepSeek V4 Pro (max) et 43 pour Kimi K2.6. C'est la première fois qu'un modèle open weights prend la tête de cet index devant l'ensemble du peloton des modèles fermés comparables.

Sur Code Arena WebDev — leaderboard mesurant les tâches de développement front-end incluant les workflows agentiques — GLM-5.2 se classe 2e, derrière Claude Fable 5 uniquement. Ce résultat est contre-intuitif : le modèle est texte uniquement, sans vision, alors que l'hypothèse dominante était qu'un bon modèle de coding front-end nécessitait la compréhension d'images pour interpréter maquettes et screenshots.

### 2. Les chiffres qui comptent

**Coût d'inférence** : OpenRouter le propose via 9 fournisseurs à $1,40/M tokens en entrée et $4,40/M en sortie. Pour référence : GPT-5.5 est à $5/$30, Claude Opus 4.5-4.8 à $5/$25. Le rapport performance/coût est donc structurellement favorable — environ 3,5× moins cher en entrée que les modèles propriétaires de niveau comparable.

**Consommation de tokens** : GLM-5.2 génère en moyenne 43K tokens de sortie par tâche sur l'Intelligence Index, contre 26K pour GLM-5.1, 24K pour MiniMax-M3, 35K pour Kimi K2.6 et 37K pour DeepSeek V4 Pro (max). Cette verbosité est le principal point de friction opérationnel : à $4,40/M tokens de sortie, une tâche complexe coûte ~$0,19 en sortie seule. Sur des pipelines agentiques à fort volume, l'avantage tarifaire s'érode rapidement si le modèle sur-génère systématiquement.

**Contexte 1M tokens** : Le saut depuis 200K est significatif pour les cas d'usage de type RAG long-document, analyse de codebase entière, ou ingestion de transcriptions longues. Aucun autre modèle open weights texte-seul ne combine ce niveau de contexte avec ce score de benchmark.

### 3. Qui perd du terrain

**DeepSeek** reste le référent open weights depuis V3/R1, mais GLM-5.2 le dépasse de 7 points sur l'Intelligence Index (51 vs 44). DeepSeek V4 Pro était jusqu'ici le plafond de verre du segment open weights haute performance — ce plafond vient d'être relevé.

**Kimi K2.6** (Moonshot AI) se retrouve à 8 points d'écart (43 vs 51), ce qui est substantiel sur un index normalisé.

**Les fournisseurs d'API propriétaires positionnés sur le mid-market** (GPT-4o-level pricing) voient leur proposition de valeur fragilisée : GLM-5.2 auto-hébergé ou via OpenRouter offre des performances supérieures à un coût inférieur pour les workloads texte pur.

**Les équipes qui avaient écarté les modèles sans vision pour le front-end** doivent revoir leur matrice de décision. Le classement Code Arena WebDev invalide empiriquement l'hypothèse que la vision est nécessaire pour exceller en coding UI.

### 4. Ce qu'il faut surveiller

La verbosité de 43K tokens/tâche n'est pas anodine. Elle suggère soit un style de raisonnement chain-of-thought étendu intégré au modèle, soit une tendance à l'over-generation qui peut dégrader la latence et le coût dans des contextes de production. Les équipes qui déploient en self-hosted devront calibrer les paramètres de génération (max_tokens, stop sequences) pour éviter la sur-génération sur des tâches simples.

La licence MIT est sans ambiguïté pour l'usage commercial, ce qui tranche avec les licences "open" à restrictions d'usage de certains concurrents (Llama 4 avec ses seuils d'utilisateurs actifs mensuels, par exemple).

La famille vision (GLM-5V-Turbo) reste fermée. Z.ai maintient une segmentation claire : open weights sur le texte, propriétaire sur la vision. Si GLM-5.2 gagne en adoption, la pression pour ouvrir la branche vision augmentera — ou au contraire, Z.ai utilisera la vision comme levier de monétisation API.

Enfin, 1,51 To de poids implique une infrastructure GPU significative pour le self-hosting (minimum 8× H100 80Go en FP8, probablement plus en BF16). L'accessibilité réelle reste conditionnée à OpenRouter ou aux fournisseurs cloud — ce qui nuance le caractère "open" dans les contextes sans infrastructure dédiée.

Lire la source
Ton avis ?
Open sourceBenchmarksGénération de codeRaisonnement

Résumé généré par Claude — vérifié par l'humain