Tongyi DeepResearch Technical Report
En 3 lignesTongyi DeepResearch est un modèle LLM agentique de 30,5 milliards de paramètres (3,3 milliards activés par token) conçu pour les tâches de recherche longue durée. Entraîné via mid-training et post-training agentiques avec synthèse de données automatique, il atteint l'état de l'art sur 7 benchmarks incluant Humanity's Last Exam et BrowseComp. Le modèle et framework sont open-sourcés.
## Tongyi DeepResearch : anatomie d'un agent de recherche à 30,5 Md de paramètres
### 1. Ce qui est annoncé
Alibaba Cloud publie le rapport technique de Tongyi DeepResearch, un LLM agentique MoE de **30,5 milliards de paramètres totaux, avec seulement 3,3 milliards activés par token**. L'architecture sparse permet de faire tourner un modèle de la classe 30B à un coût d'inférence proche d'un 3B dense. Le modèle, le framework d'entraînement et les solutions complètes aux benchmarks sont open-sourcés — ce qui est rare pour un système atteignant ce niveau de performance sur des tâches agentiques.
Le système est entraîné via un pipeline en deux phases : **agentic mid-training** (adaptation du modèle de base aux comportements agentiques) puis **agentic post-training** (alignement et renforcement sur des tâches de recherche longue durée). La synthèse de données est entièrement automatique, sans annotation humaine, ce qui rend le pipeline scalable et reproductible.
### 2. Les chiffres qui comptent
Tongyi DeepResearch revendique l'état de l'art sur **7 benchmarks simultanément** :
- **Humanity's Last Exam (HLE)** : le benchmark le plus discriminant de la communauté, conçu pour résister aux LLMs actuels avec des questions d'experts dans des dizaines de domaines. Atteindre le SOTA ici signifie dépasser GPT-4o, Claude 3.5 Sonnet et les versions précédentes de DeepSeek-R1 sur des tâches nécessitant raisonnement multi-étapes et recherche d'information. - **BrowseComp et BrowseComp-ZH** : benchmarks d'OpenAI mesurant la capacité à naviguer sur le web pour répondre à des questions complexes. La version ZH (chinois) indique une couverture multilingue réelle, pas cosmétique. - **WebWalkerQA** : navigation web multi-hop avec extraction d'information structurée. - **FRAMES** : raisonnement factuel avec récupération multi-documents. - **xbench-DeepSearch et xbench-DeepSearch-2510** : deux versions du benchmark interne d'Alibaba, dont une datée d'octobre 2025, suggérant une évaluation continue sur des données récentes.
L'absence de chiffres absolus dans l'abstract (scores exacts non divulgués ici) est un signal habituel des rapports techniques arXiv — les tableaux complets sont dans le corps du papier.
### 3. Pourquoi l'architecture MoE change le calcul
Avant cette annonce, le paysage des agents de recherche open-source était dominé par des modèles denses (Llama 3.1 70B, Qwen2.5 72B) ou des systèmes propriétaires (Perplexity, You.com, les modes Deep Research de Gemini et ChatGPT). Le ratio 30,5B total / 3,3B actifs place Tongyi DeepResearch dans une catégorie à part : **coût d'inférence d'un petit modèle, capacité d'un grand**.
Concrètement, pour un déploiement self-hosted, cela signifie qu'un serveur avec 2× A100 80GB peut faire tourner le modèle en inférence là où un dense 30B nécessiterait la même configuration mais avec une latence bien supérieure par token. Pour les équipes qui construisent des pipelines de recherche automatisée, c'est un changement de coût opérationnel significatif.
### 4. Perdants potentiels et limites
**Perplexity et les moteurs de recherche IA propriétaires** sont les premiers exposés. Si un modèle open-source de cette classe atteint effectivement le SOTA sur BrowseComp — le benchmark conçu précisément pour évaluer la recherche web profonde — la proposition de valeur des API propriétaires à 20$/mois s'érode.
**Les équipes utilisant des pipelines RAG classiques** (retrieve-then-read avec des modèles non spécialisés) vont devoir justifier leur architecture face à un modèle entraîné end-to-end pour l'information seeking.
**Les limites à surveiller** : le rapport mentionne des environnements personnalisés pour chaque stage d'entraînement — cela implique une complexité d'infrastructure non triviale pour reproduire l'entraînement. L'open-source des poids ne garantit pas la reproductibilité complète du pipeline. Par ailleurs, les benchmarks xbench sont internes à Alibaba, ce qui introduit un biais d'évaluation potentiel. La performance sur HLE et BrowseComp (benchmarks tiers) est plus probante, mais les scores absolus doivent être vérifiés dans le papier complet.
Le fait que le modèle soit optimisé pour le **long-horizon** (sessions de recherche multi-étapes, pas des requêtes one-shot) signifie aussi que les benchmarks courts ne capturent pas nécessairement sa valeur réelle — et inversement, sa performance sur des tâches courtes pourrait être sous-optimale par rapport à des modèles généralistes.
Résumé généré par Claude — vérifié par l'humain