Topic

#DeepSeek

DeepSeek est une entreprise chinoise spécialisée en IA, connue pour ses modèles de langage open-source performants et économiques. Son modèle DeepSeek-R1 a notamment démontré des capacités de raisonnement comparables aux meilleurs modèles occidentaux.

40Articles
12Sources
62Signal moyen
The Decoder·

New review paper argues code is how AI agents think and act, not just what they produce

Un article de recherche soutient que le véritable goulot d'étranglement des agents IA autonomes n'est pas le modèle de langage mais la couche logicielle qui l'entoure : outils, mémoire, tests et limites de permissions transforment un modèle sans état en agent fonctionnel. Deepseek construit une équipe dédiée « Harness » à Pékin confirmant cette thèse.

Agents IADeepSeekGénération de code
SIG
65
HYP
00
Reddit r/LocalLLaMA·

GH200 NVL2 or 8x RTX 6000 Blackwell for running Kimi K2.6 / DeepSeek V4 locally? (5 devs, agentic coding)

Développeur cherche la meilleure infrastructure (~100-150k$) pour servir localement Kimi K2.6 et DeepSeek V4 en équipe de 5 (coding agentic). Compare dual GH200 NVL2 (1.2TB mémoire unifiée, 95k$) vs 8x RTX 6000 Blackwell (768GB VRAM, 140k$). Test GH200 seul : 23 tok/s en décodage 2-bit, mais préfill lent et modèles débordent en mémoire lente.

DeepSeekKimiAgents IA
SIG
45
HYP
00
arXiv cs.AI·

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Les modèles de raisonnement (LRM) encodent le refus conjointement dans les activations résiduelles et la chaîne de pensée (CoT). Sur DeepSeek-R1-Distill-LLaMA-8B, le steering d'activation inverse le refus dans 39% des cas avec CoT fixe, mais 70% sans CoT. Régénérer la CoT sous steering atteint 94% de succès, révélant que le refus est distribué entre activations et CoT.

RaisonnementSécurité IAAlignement
SIG
78
HYP
00
GitHub Trending·

<svg aria-hidden="true" data-component="Octicon" height="16" viewBox="0 0 16 16" version="1.1" width="16" data-view-component="true" class="octicon octicon-repo mr-1 tmp-mr-1 color-fg-muted"> <path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"></path> </svg> <span data-view-component="true" class="text-normal"> Hmbown /</span> CodeWhale

CodeWhale est un terminal de codage agentique utilisant DeepSeek en priorité, avec support multi-fournisseurs, optimisation du cache, interface en 5 langues et endpoints régionaux CN.

Agents IAGénération de codeDeepSeek
SIG
45
HYP
00
Reddit r/LocalLLaMA·

The reason small-model agent stacks aren't the default has nothing to do with whether they work

Les petits modèles spécialisés (Gemma 4 31B à 86.4% sur tau2-bench, Qwen 27B surpassant des modèles 397B) dominent désormais les benchmarks d'agents. Pourtant l'industrie continue d'utiliser des modèles frontière coûteux : les labs de frontier gagnent à la facturation par token, créant un désalignement économique entre performance technique et adoption.

Agents IABenchmarksQwen
SIG
75
HYP
00
arXiv cs.CL·

Refining and Reusing Annotation Guidelines for LLM Annotation

Les LLM peinent à respecter les conventions spécialisées des benchmarks de référence. Les auteurs proposent un cadre itératif de modération qui réutilise et affine les directives d'annotation pour aligner les modèles. Tests sur trois tâches de NER biomédicales (NCBI Disease, BC5CDR, BioRED) avec GPT, Gemini, DeepSeek confirment l'efficacité de l'intégration de directives et des modèles optimisés pour le raisonnement.

GPTGeminiDeepSeek
SIG
72
HYP
00
arXiv cs.CL·

Taming the Thinker: Conditional Entropy Shaping for Adaptive LLM Reasoning

Conditional Entropy Shaping (CES) contrôle dynamiquement l'entropie des tokens pour équilibrer concision et précision du raisonnement. Implémenté sur DeepSeek-R1-Distill-7B, CES pénalise les tokens haute-entropie sur les chemins corrects et les récompense sur les chemins erronés. Résultats : amélioration de la précision avec réduction de la longueur des réponses sur 12 benchmarks mathématiques.

DeepSeekRaisonnementReinforcement learning
SIG
72
HYP
00
arXiv cs.AI·

DBES: A Systematic Benchmark and Metric Suite for Evaluating Expert Specialization in Large-Scale MoEs

DBES est un cadre diagnostic pour évaluer la spécialisation des experts dans les modèles MoE (Mixture-of-Experts). Cinq métriques théoriques mesurent l'isolation de domaine et la spécialisation du routage. Tests sur Qwen, DeepSeek et GLM révèlent des paradigmes distincts. Post-training ciblé sur experts spécialisés améliore les performances de 66-94% avec 15% des ressources.

BenchmarksQwenDeepSeek
SIG
82
HYP
00
DeepSeek — actualité IA · Signal IA