Topic

#DeepSeek

DeepSeek est une entreprise chinoise spécialisée en IA, connue pour ses modèles de langage open-source performants et économiques. Son modèle DeepSeek-R1 a notamment démontré des capacités de raisonnement comparables aux meilleurs modèles occidentaux.

40Articles

11Sources

63Signal moyen

arXiv cs.LG·18 juin

Attribution-Guided and Coverage-Maximized Pruning for Structural MoE Compression

Méthode de compression structurelle pour modèles MoE (Mixture-of-Experts) via élagage au niveau des canaux. Utilise une approche d'attribution pour maximiser la couverture des scores de canaux. Tests sur DeepSeek et Qwen montrent 50% d'élagage structurel avec quantification 4-bit, réduction mémoire 5.27× sur Qwen3-30B-A3B.

DeepSeek Qwen Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·17 juin

US holds off blacklisting China's DeepSeek, more than 100 firms deemed security risks, sources say

Les États-Unis ne placent pas DeepSeek sur liste noire mais identifient plus de 100 entreprises chinoises comme risques de sécurité. Décision politique face aux tensions commerciales et technologiques sino-américaines.

DeepSeek Régulation Business

SIG

HYP

Reddit r/LocalLLaMA·17 juin

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench évalue la capacité d'agents IA à construire des jeux jouables end-to-end dans un moteur de jeu réel. Benchmark teste Opus-4.7, GPT-5.5, Kimi-K2.6, DeepSeek-V4-Pro et autres. Absence de résultats pour modèles médium (27B-31B).

Agents IA Benchmarks Génération de code

SIG

HYP

Le Big Data·17 juin

DeepSeek réalise une levée géante de plus de 7 milliards de dollars

DeepSeek complète une levée de fonds de plus de 7 milliards de dollars, parmi les plus importantes du secteur IA. Montant record pour la startup chinoise spécialisée dans les modèles de langage.

DeepSeek Financements Business

SIG

HYP

Hacker News (AI)·16 juin

DeepSeek V4 Pro at 5% the cost of Claude – what it takes to close the gap

DeepSeek V4 Pro offre des performances comparables à Claude à 5% du coût. L'article analyse les écarts technologiques et économiques entre les modèles, sans détails chiffrés précis sur les benchmarks ou les tarifs exacts.

DeepSeek Claude Benchmarks

SIG

HYP

The Decoder·16 juin

Microsoft's Copilot Cowork moves to usage-based billing and may tap DeepSeek

Microsoft envisage une version fine-tuned de DeepSeek V4 comme option moins chère pour Copilot Cowork. L'entreprise bascule aussi à une facturation à l'usage, Charles Lamanna estimant que les tarifs forfaitaires ne sont pas durables.

DeepSeek Business Agents IA

SIG

HYP

The Decoder·16 juin

DeepSeek takes outside money for the first time at a $50 billion valuation

DeepSeek lève 50 milliards de yuans (7,4 milliards USD) lors de son premier tour de financement externe, atteignant une valorisation de 50 milliards USD.

DeepSeek Financements Business

SIG

HYP

arXiv cs.CL·16 juin

Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models

ASAG, une méthode sans entraînement basée sur l'analyse des distributions d'attention, détecte le surapprentissage dans les modèles de raisonnement et arrête la génération de manière adaptative. Testé sur DeepSeek-R1-Distill et Qwen3, elle améliore la précision de 3,2% tout en réduisant les tokens générés de 40% sur Qwen3-8B.

Raisonnement DeepSeek Qwen

SIG

HYP

Reddit r/LocalLLaMA·14 juin

You can run Deepseek 4 flash on mac (M3 Max, 96gb)

Deepseek 4 Flash fonctionne sur Mac M3 Max 96GB via ds4 (moteur d'Antirez) avec streaming SSD. Performance : 11-13 tokens/s en décodage, 10s au démarrage, 3-5s TTFT. Préfill 36k tokens en 2m30s. Configuration requiert iogpu.wired_limit_mb=86016 et --ssd-streaming.

DeepSeek Open source Outils

SIG

HYP

Reddit r/LocalLLaMA·14 juin

Dual DGX Sparks- 40tk/s single 1M ; 350 tk/s agg. - Deepseek V4 Flash (vs RTX Pro 6000 vs Mac M2 Ultra 192)

Benchmark de Deepseek V4 Flash sur dual DGX Sparks : 40 tk/s en FP8 (single), 350 tk/s agrégé sur 32 requêtes. Comparaison avec RTX Pro 6000 (46 tk/s Q2) et M2 Ultra 192GB (29 tk/s Q2). Nécessite câble ConnectX7 200G/s ($180) pour synchronisation inter-GPU.

DeepSeek Benchmarks Génération de code

SIG

HYP

Reddit r/LocalLLaMA·13 juin

DeepSeek v4 Pro is too big for such a "midrange" performance, or am I missing something?

Un utilisateur remet en question la pertinence de DeepSeek v4 Pro (1.6T paramètres) face à ses performances médiocres comparées à des modèles plus petits : GLM 5.2 (750B), Kimi K2.7 (1T), MiniMax M3 (450B) et MiMo v2.5 Pro (1T) surpassent ses benchmarks. Interrogation sur l'intérêt réel du modèle au-delà de l'infrastructure d'inférence Huawei.

DeepSeek Benchmarks Open source

SIG

HYP

Reddit r/LocalLLaMA·11 juin

How can Deepseek v4 top the coding leaderboards and still sit 8 months behind the frontier?

DeepSeek v4 Pro affiche 80.6 sur SWE-bench et 93.5 sur LiveCodeBench mais CAISI l'évalue 8 mois derrière la frontière US (vs 2 mois selon DeepSeek). Les benchmarks de code sont étroits et sur-optimisés ; les écarts apparaissent en cybersécurité et raisonnement abstrait. Les versions quantifiées locales s'éloignent davantage des scores annoncés.

DeepSeek Benchmarks Génération de code

SIG

HYP

Vercel AI Blog·11 juin

DeepSeek models now available via Azure on AI Gateway

Azure intègre DeepSeek V4 Pro et V4 Flash sur Vercel AI Gateway. Les requêtes routent automatiquement via Azure avec basculement vers d'autres fournisseurs sans modification de code. Support BYOK (clés personnalisées), zéro frais de plateforme sur l'inférence.

DeepSeek Infrastructure Outils

SIG

HYP

Reddit r/LocalLLaMA·10 juin

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

FlashMemory-DeepSeek-V4 introduit Lookahead Sparse Attention (LSA), un paradigme d'inférence qui réduit l'empreinte mémoire KV cache à 13,5% du baseline sur contextes ultra-longs (500K tokens). Un Neural Memory Indexer prédit les demandes futures et conserve uniquement les chunks critiques en GPU, sans charger le modèle backbone complet. Résultats : +0,6% de précision moyenne sur LongBench-v2, LongMemEval, RULER.

DeepSeek Raisonnement Benchmarks

SIG

HYP

arXiv cs.AI·10 juin

Moonshine: An Autonomous Mathematical Research Agent Centered on Conjecture Generation

Moonshine est un agent autonome générant des conjectures mathématiques. Il extrait des structures de problèmes classiques et formule des conjectures significatives. Appliqué à la conjecture jacobienne, il transfère la logique à des réseaux de neurones affines-ridge, formulant la Neural Jacobian Conjecture (NJC). GPT-5.5-pro et DeepSeek-V4-pro ont obtenu des preuves complètes pour N=n+1.

Agents IA Raisonnement Papers

SIG

HYP

arXiv cs.AI·10 juin

Instruction Finetuning DeepSeek-R1-8B Model Using LoRA and NEFTune

DeepSeek-R1-8B fine-tuné avec LoRA et NEFTune pour la reconnaissance d'entités nommées financières. Sur 1693 échantillons annotés, le modèle atteint micro-F1 de 0.912 sur 7 types d'entités, surpassant Llama3-8B, Qwen3-8B et Baichuan2-7B.

DeepSeek Fine-tuning RAG

SIG

HYP

arXiv cs.LG·10 juin

TENP: Trapezoidal Expert Neuron Pruning For Mixture-of-Experts

TENP propose un cadre de pruning structuré pour les modèles MoE (Mixture-of-Experts). La méthode identifie les experts importants et applique un pruning au niveau des neurones aux experts moins importants, avec un pattern trapézoïdal. Sur DeepSeek avec 40% sparsité de routage et 63.76% de paramètres activés, la perte de précision est limitée à 1 point, avec +10% sur la génération de code.

DeepSeek Qwen Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·8 juin

Here are some tips on hitting nearly 200 tok/s for DeepSeek v4 Flash on Hopper

Optimisation de DeepSeek v4 Flash sur GPU Hopper : atteinte de 193 tok/s via quantification Canada-Quant et patch vLLM. L'auteur documente les gains de performance pour réduire les coûts d'inférence locale face aux tarifs API ($0.1966/M tokens).

DeepSeek Génération de code Agents IA

SIG

HYP

Vercel AI Blog·8 juin

DeepSeek enters the fight for token volume, Anthropic continues to dominate spend

DeepSeek V4 a capturé 17% du volume de tokens sur AI Gateway en mai 2025, passant de <1% en avril, grâce à des prix 20-50× inférieurs à Claude. Malgré cette croissance massive en volume, DeepSeek ne représente que 1% des dépenses, tandis qu'Anthropic domine les coûts de production.

DeepSeek Anthropic OpenAI

SIG

HYP

arXiv cs.CL·8 juin

Explain Like I'm 5 or Whatever I Choose: Evaluating the Interactive Potential of Language Model Responses

Étude d'évaluation de LLMs (GPT-5.1, GPT-5 mini, Claude Sonnet 4.5 + Thinking, DeepSeek-V3.1) sur leur capacité à générer plusieurs réponses à une même requête scientifique en variant la complexité du langage. Sur 98 requêtes, Claude Sonnet 4.5 ne maintient une complexité cohérente que 46% du temps. Framework d'évaluation basé sur étude formative avec 16 participants.

Évaluations Claude GPT

SIG

HYP

The Decoder·7 juin

Deepseek topped Ramp's trending software vendors in June 2026 as US companies chase cheaper AI

DeepSeek figure en tête des fournisseurs logiciels tendance de Ramp en juin 2026. Les entreprises US adoptent massivement ce service payant pour réduire les coûts IA, mais l'économiste en chef de Ramp alerte sur les risques de sécurité liés aux modèles chinois.

DeepSeek Business Sécurité IA

SIG

HYP

Reddit r/LocalLLaMA·6 juin

DeepSeek V4 Flash is amazing! (WIP llama.cpp PR #24162)

DeepSeek V4 Flash obtient le support llama.cpp via PR #24162 en phase précoce. Le modèle combine intelligence frontière, robustesse à la quantization (FP4-FP8 natif) et efficacité KV cache. Actuellement 5-6 tokens/s, GPU/FA en développement, mais correctness validée.

DeepSeek Open source Infrastructure

SIG

HYP

Reddit r/MachineLearning·4 juin

On-policy distillation: one of the hottest terms on PapersWithCode [R]

On-policy distillation (OPD) est une technique post-training clé utilisée par Qwen 3.6/3.7, GLM-5.1 et DeepSeek-V4. La méthode utilise un modèle auxiliaire pour identifier les erreurs dans les trajectoires et injecter des tokens de correction, permettant au modèle principal d'apprendre sans régénérer de nouveaux rollouts.

Fine-tuning Reinforcement learning Qwen

SIG

HYP

Le Big Data·4 juin

DeepSeek viserait une levée de fonds de 7 milliards de dollars avec Tencent et CATL

DeepSeek préparerait une levée de fonds de 7 milliards de dollars avec Tencent et CATL, ce qui constituerait l'une des plus importantes levées de fonds récentes dans l'IA chinoise.

DeepSeek Financements Business

SIG

HYP

arXiv cs.CL·3 juin

G^2C-MT: Graph-Guided Context Selection for Document-Level Machine Translation

G²C-MT propose une sélection de contexte guidée par graphe pour la traduction automatique au niveau du document. Le système modélise les dépendances discursives entre paragraphes via un graphe léger et utilise une marche aléatoire biaisée en profondeur pour extraire des chemins de contexte. Testé sur DeepSeek-V3, Gemini-2.5-Flash-lite et Qwen-2.5/3, l'approche surpasse les baselines sur plusieurs domaines.

Papers Benchmarks DeepSeek

SIG

HYP

ActuIA·2 juin

Qwen et DeepSeek : Pékin scelle leurs données d'entraînement, l'AI Act les réclame

Depuis juin 2026, les autorités numériques européennes utilisant Qwen ou DeepSeek doivent se conformer à l'AI Act qui exige la divulgation des données d'entraînement. Pékin refuse de les communiquer, créant un conflit réglementaire majeur entre l'UE et les fournisseurs chinois.

Qwen DeepSeek Régulation

SIG

HYP

Reddit r/LocalLLaMA·1 juin

Deepseek V4 flash performance on DGX Spark

Utilisateur déploie Deepseek V4 Flash sur DGX Spark (2x ASUS GX10) via vLLM. Contexte max 256k tokens, débit prefill 1680-2150 T/s, décode 37-49 T/s selon fenêtre. Performance stable, dégradation faible. Modèle surpasse M2.7 et Stepfun 3.7 en raisonnement haute contexte.

DeepSeek Infrastructure Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·1 juin

100 Trillion+ Pretraining data??? This is the largest data I've see a model being trained on.

Un utilisateur Reddit rapporte qu'un modèle (probablement Minimax M3) aurait été entraîné sur 100+ trillions de tokens, soit le double des standards actuels (27-50T pour Kimi, Mimo, Deepseek). L'auteur doute que le modèle dépasse 500B paramètres malgré cette augmentation massive de données.

DeepSeek Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·31 mai

DeepSWE benchmarks indicate that DeepSeek v4 Pro only passes 8% of tasks

Un utilisateur Reddit rapporte que DeepSeek v4 Pro obtient 8% de réussite sur le benchmark DeepSWE, contrastant avec sa perception d'une performance proche de Claude Sonnet 4.6 en pratique. Le lien vers le benchmark DeepSWE est fourni.

DeepSeek Benchmarks Génération de code

SIG

HYP

The Decoder·29 mai

New review paper argues code is how AI agents think and act, not just what they produce

Un article de recherche soutient que le véritable goulot d'étranglement des agents IA autonomes n'est pas le modèle de langage mais la couche logicielle qui l'entoure : outils, mémoire, tests et limites de permissions transforment un modèle sans état en agent fonctionnel. Deepseek construit une équipe dédiée « Harness » à Pékin confirmant cette thèse.

Agents IA DeepSeek Génération de code

SIG

HYP

Hacker News (AI)·29 mai

DeepSeek Slashes AI Costs to Cents

DeepSeek réduit drastiquement les coûts d'inférence IA à quelques centimes. L'entreprise chinoise optimise ses modèles pour diminuer la consommation de ressources computationnelles et les frais d'utilisation.

DeepSeek Business

SIG

HYP

Le Big Data·29 mai

DeepSeek V4 : émancipation chinoise et urgence d’une stratégie IA européenne

DeepSeek V4 marque une avancée majeure de l'IA chinoise et remet en question l'efficacité des stratégies occidentales. L'article souligne l'urgence pour l'Europe de développer une stratégie IA compétitive face à cette émancipation technologique.

DeepSeek Régulation

SIG

HYP

arXiv cs.AI·28 mai

TCP-MCP: Landscape-Guided Co-Evolution of Prompts and Communication Topologies for Multi-Agent Systems

TCP-MCP co-évolue les prompts d'agents et les topologies de communication comme un génome unifié. Sur MMLU-Pro, MMLU et GSM8K avec DeepSeek-V3.2, le système atteint 82.66%, 89.96% et 96.61% d'accuracy tout en consommant 5.69× moins de tokens que les systèmes de débat.

Multi-agents Prompt engineering Benchmarks

SIG

HYP

Reddit r/LocalLLaMA·28 mai

GH200 NVL2 or 8x RTX 6000 Blackwell for running Kimi K2.6 / DeepSeek V4 locally? (5 devs, agentic coding)

Développeur cherche la meilleure infrastructure (~100-150k$) pour servir localement Kimi K2.6 et DeepSeek V4 en équipe de 5 (coding agentic). Compare dual GH200 NVL2 (1.2TB mémoire unifiée, 95k$) vs 8x RTX 6000 Blackwell (768GB VRAM, 140k$). Test GH200 seul : 23 tok/s en décodage 2-bit, mais préfill lent et modèles débordent en mémoire lente.

DeepSeek Kimi Agents IA

SIG

HYP

Reddit r/MachineLearning·27 mai

UK GDPR Small Business Q&A — 5,000 synthetic pairs with article-level citations [D]

Dataset de 5 000 paires QA synthétiques pour affiner des assistants de conformité GDPR UK. Chaque paire inclut une question pratique PME et une réponse avec références d'articles GDPR, guidance ICO et étapes actionnables. Généré via Qwen 14B et DeepSeek API. Licence MIT, échantillon 1K sur Hugging Face.

Fine-tuning RAG DeepSeek

SIG

HYP

arXiv cs.AI·27 mai

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Les modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.

Raisonnement Sécurité IA Alignement

SIG

HYP

arXiv cs.AI·27 mai

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

MeDial-Speech : dataset de 111+ heures de dialogues médicaux parlés (robot-patient et médecin-patient) couvrant 4 conditions de santé. Benchmark de 3 LLMs (GPT-4 mini, DeepSeek-V3, Claude Sonnet 4) via sélection de phrases : Claude Sonnet 4 atteint 71,1% de précision. Révèle une surconfiance systématique des modèles.

Benchmarks Claude DeepSeek

SIG

HYP

The Decoder·26 mai

China reportedly now requires top AI researchers to get permission before leaving the country

La Chine impose désormais une autorisation officielle aux chercheurs IA de haut niveau chez Alibaba et DeepSeek avant de quitter le pays. Pékin craint les fuites de données, le vol technologique et le détournement de talents.

Régulation DeepSeek Business

SIG

HYP

GitHub Trending·26 mai

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Hmbown /</span> CodeWhale

CodeWhale est un terminal de codage agentique utilisant DeepSeek en priorité, avec support multi-fournisseurs, optimisation du cache, interface en 5 langues et endpoints régionaux CN.

Agents IA Génération de code DeepSeek

SIG

HYP

Reddit r/LocalLLaMA·25 mai

The reason small-model agent stacks aren't the default has nothing to do with whether they work

Les petits modèles spécialisés (Gemma 4 31B à 86.4% sur tau2-bench, Qwen 27B surpassant des modèles 397B) dominent désormais les benchmarks d'agents. Pourtant l'industrie continue d'utiliser des modèles frontière coûteux : les labs de frontier gagnent à la facturation par token, créant un désalignement économique entre performance technique et adoption.

Agents IA Benchmarks Qwen

SIG

HYP