Hugging Face Blog·28 janvier 2025

Open-R1: a fully open reproduction of DeepSeek-R1

Signal

Hype

En 3 lignesHugging Face reproduit DeepSeek-R1, un modèle de raisonnement open-source. Open-R1 offre une alternative entièrement ouverte aux modèles propriétaires, avec code, données et poids disponibles publiquement pour la recherche et le déploiement.

## Open-R1 : Hugging Face reconstruit DeepSeek-R1 brique par brique

### 1. Ce qui se passe concrètement

Hugging Face lance Open-R1, une reproduction intégrale de DeepSeek-R1 — le modèle de raisonnement chinois qui avait fait trembler les valorisations des labs américains en janvier 2025. L'objectif déclaré : reconstituer l'intégralité de la pipeline, pas seulement les poids finaux. Code d'entraînement, données synthétiques de raisonnement, recettes GRPO (Group Relative Policy Optimization), et checkpoints intermédiaires sont publiés au fur et à mesure. C'est une différence fondamentale avec la publication originale de DeepSeek, qui avait livré les poids mais gardé opaque une partie critique du pipeline de génération de données.

### 2. Pourquoi DeepSeek-R1 méritait une reproduction

DeepSeek-R1 avait démontré qu'un modèle entraîné avec du RL pur sur des traces de raisonnement pouvait rivaliser avec o1 d'OpenAI sur AIME 2024 (79,8% vs 79,2%) et MATH-500 (97,3% vs 96,4%), à une fraction du coût de calcul annoncé. Le mécanisme clé — baptisé « aha moment » dans le papier original — est l'émergence spontanée de comportements de vérification et de backtracking sans supervision explicite, uniquement via GRPO appliqué à des récompenses de format et d'exactitude.

Mais DeepSeek avait publié R1 sous une licence qui restreint la distillation vers d'autres architectures, et le dataset exact utilisé pour le cold-start supervisé restait non publié. Open-R1 attaque précisément ces deux angles morts.

### 3. Ce qu'Open-R1 apporte réellement

**Données** : L'équipe génère un dataset synthétique de raisonnement en utilisant DeepSeek-R1 lui-même comme teacher — une approche de distillation de traces de pensée (chain-of-thought longues, avec étapes de vérification). Le dataset cible initialement les domaines maths, sciences et code, là où les récompenses vérifiables sont disponibles sans annotation humaine.

**Entraînement** : La reproduction utilise TRL (Transformer Reinforcement Learning library, maintenue par HF) avec l'implémentation GRPO. Le point de départ est Qwen-2.5 et ses variantes, pas Llama, ce qui reflète le fait que Qwen-2.5 offre de meilleures performances de base en raisonnement mathématique pour les tailles 7B-72B.

**Benchmarks intermédiaires** : Les premiers résultats publiés sur Open-R1-Zero (entraîné sans cold-start supervisé, RL pur) montrent des progressions mesurables sur MATH-500 par rapport au modèle de base Qwen-2.5-7B-Instruct, confirmant que l'émergence du comportement de raisonnement étendu est reproductible sans les données propriétaires de DeepSeek.

### 4. Les perdants et les tensions à surveiller

**OpenAI et Anthropic** : Chaque reproduction open-source crédible d'un modèle de raisonnement frontier réduit la prime de rareté de leurs offres API. o1 et o3 sont actuellement les seules options production-grade pour le raisonnement complexe dans les pipelines enterprise — Open-R1 et ses dérivés créent une pression directe sur cette position, surtout pour les clients sensibles à la confidentialité des données qui ne peuvent pas envoyer leurs requêtes vers des APIs externes.

**DeepSeek lui-même** : La reproduction lève les restrictions de licence de fait. Si Open-R1 atteint des performances comparables avec une licence Apache 2.0 complète, la valeur de moat de DeepSeek sur l'écosystème occidental s'érode.

**Les labs qui misent sur l'opacité des données** : Le vrai signal ici n'est pas le modèle final, c'est la démonstration que la pipeline complète — génération de données synthétiques de raisonnement + RL avec récompenses vérifiables — peut être reconstituée par une équipe de taille modeste avec des ressources publiques. Cela invalide partiellement la thèse selon laquelle les données d'entraînement propriétaires constituent un fossé défensif durable.

**Point de vigilance** : Open-R1 est un work-in-progress explicite. Les performances publiées à ce stade concernent des modèles 7B entraînés sur des sous-ensembles limités. La question ouverte est de savoir si la recette tient à 70B+ et sur des domaines moins structurés que les maths olympiques. La reproductibilité du « aha moment » à grande échelle reste à démontrer de façon convaincante. L'honnêteté intellectuelle de l'équipe HF sur ce point — publier les résultats intermédiaires plutôt qu'attendre un résultat final poli — est précisément ce qui rend ce projet utile pour la communauté de recherche, même si cela expose aussi ses limites actuelles.

Lire la source

Ton avis ?

DeepSeek Open source Raisonnement Papers

Résumé généré par Claude — vérifié par l'humain

Open-R1: a fully open reproduction of DeepSeek-R1

Autres angles sur ce sujet