Hugging Face Blog·9 avril 2024

CodeGemma - an official Google release for code LLMs

Signal

Hype

En 3 lignesGoogle lance CodeGemma, une famille de modèles de langage spécialisés dans la génération de code, basée sur Gemma. Disponible en versions 7B et 2B avec poids ouverts, CodeGemma inclut des variantes pré-entraînées et instruction-tuned optimisées pour les tâches de codage.

## CodeGemma : Google entre dans la guerre des modèles de code open-weight

### 1. Ce qui est annoncé concrètement

Google publie CodeGemma, une famille de trois modèles spécialisés dans la génération de code, construits sur l'architecture Gemma. Le lineup : un modèle 7B pré-entraîné (CodeGemma 7B), un 7B instruction-tuned (CodeGemma 7B-IT), et un 2B optimisé pour la complétion de code en contexte IDE (CodeGemma 2B). Les poids sont disponibles sur Hugging Face sous licence Gemma — ouverts pour usage commercial avec restrictions (pas de fine-tuning pour concurrencer Google directement). Les modèles ont été entraînés sur 500 à 600 milliards de tokens de code, principalement issus de The Stack et CodeSearchNet, avec un contexte de 8 192 tokens.

### 2. Pourquoi le signal est à 85

Avant CodeGemma, le paysage des modèles de code open-weight était dominé par Code Llama (Meta, 7B/13B/34B), DeepSeek Coder (1.3B à 33B), et StarCoder2 (3B/7B/15B de BigCode). Google était absent de ce segment avec des poids accessibles — ses modèles de code (Codey, AlphaCode 2) restant fermés derrière l'API Vertex AI.

Sur les benchmarks publiés, CodeGemma 7B atteint **52,9% sur HumanEval** (Python, pass@1) et **53,6% sur MBPP**. Le 2B affiche 22,1% sur HumanEval. Pour comparaison, Code Llama 7B tourne autour de 33-36% sur HumanEval selon les variantes, et StarCoder2 7B autour de 35%. DeepSeek Coder 6.7B monte à ~49%. CodeGemma 7B dépasse donc l'ensemble du segment 7B sur HumanEval, se rapprochant de Code Llama 34B (~48,8%) avec 5x moins de paramètres.

Le modèle 2B est le choix tactique le plus intéressant : ciblé explicitement pour l'inférence locale dans les IDE (complétion fill-in-the-middle, FIM), il tourne sur CPU ou GPU grand public avec une latence acceptable. C'est le segment où GitHub Copilot et Codeium déploient leurs modèles propriétaires légers — Google vient d'y poser un concurrent open-weight.

### 3. Les implications pour l'écosystème

**Perdants immédiats :** StarCoder2 7B (BigCode/HuggingFace) perd sa position de référence open-weight dans la tranche 7B. Les benchmarks de CodeGemma le surpassent sur tous les axes publiés. Pour les équipes qui avaient choisi StarCoder2 comme base de fine-tuning interne, la migration vers CodeGemma devient une question légitime.

Code Llama est également sous pression, mais Meta dispose d'une longueur d'avance sur l'écosystème (intégrations, fine-tunes communautaires, Llama.cpp support). La transition ne sera pas automatique.

**Gagnants :** Les équipes qui construisent des assistants de code on-premise ou des plugins IDE open-source ont maintenant une base Google-quality sans dépendance API. Le modèle 2B en particulier ouvre des cas d'usage embarqués (complétion offline, environnements air-gapped).

**Hugging Face** consolide son rôle de plateforme de distribution officielle pour les releases Google — après Gemma 2B/7B, CodeGemma confirme ce partenariat de distribution.

### 4. Ce qu'il faut surveiller

La licence Gemma reste le point de friction principal. Elle n'est pas Apache 2.0 : les restrictions sur la concurrence directe avec Google et les limites sur certains usages commerciaux créent une zone grise pour les entreprises qui veulent déployer en production sans audit juridique. StarCoder2 et DeepSeek Coder restent sous Apache 2.0 — avantage non négligeable pour les équipes légales.

Les benchmarks HumanEval et MBPP mesurent la génération Python sur des problèmes courts et isolés. Ils ne capturent pas la performance sur des bases de code réelles (complétion multi-fichiers, refactoring, génération de tests d'intégration). Les chiffres publiés sont favorables mais incomplets.

Enfin, l'absence d'un modèle 13B ou 34B dans le lineup initial laisse un vide que DeepSeek Coder 33B et Code Llama 34B occupent seuls pour les déploiements qui nécessitent plus de capacité. Google pourrait combler ce gap dans une v2, mais pour l'instant CodeGemma est une offre mid-range.

Lire la source

Ton avis ?

Gemini Génération de code Open source Benchmarks

Résumé généré par Claude — vérifié par l'humain

CodeGemma - an official Google release for code LLMs

Autres angles sur ce sujet