Édition du2026-06-16

Nemotron 3 Ultra ouvre 550B paramètres hybrides pendant que CODA-BENCH plafonne les meilleurs agents à 61% sur les tâches data-code

NVIDIA lâche Nemotron 3 Ultra sur HuggingFace : 550B paramètres totaux, 55B actifs, architecture MoE hybride Mamba-Transformer, pré-entraîné sur 20T tokens avec fenêtre de contexte 1M. Le chiffre clé est le débit : ×6 par rapport aux LLM publics de taille comparable, obtenu via la composante Mamba qui réduit le coût des longues séquences. Checkpoints, données et recette d'entraînement (SFT + RL + distillation multi-enseignants) sont tous ouverts — ce qui en fait l'un des releases open-source les plus complets de l'année sur ce segment de taille. Pour les équipes qui font tourner de l'inférence à grande échelle, le ratio actifs/total (10%) est le vrai levier de coût.

CODA-BENCH (arXiv:2606.15300) arrive au bon moment pour recadrer les attentes sur les agents de données. 1 009 tâches construites sur l'écosystème Kaggle, ~980 fichiers par environnement, et le meilleur agent plafonne à 61,1% de succès sur des tâches qui combinent découverte de données et exécution de code. C'est le même type de gap que l'on voyait sur les benchmarks de code pur il y a deux ans — avant que SWE-bench ne force une réévaluation des pipelines. CODA-BENCH va probablement jouer le même rôle pour les agents data-science. À mettre en regard avec PrologMCP (Claude Sonnet 4.6, GPT-4.1, o4-mini sur PARARULE-Plus) qui atteint 0.99–1.00 de précision sur le raisonnement déductif en exposant Prolog comme outil stateful via MCP : les agents ne sont pas uniformément mauvais, ils sont mauvais sur les tâches non structurées à fort volume de données, et quasi-parfaits quand le raisonnement est formalisé en amont.

En périphérie mais utile en prod : quicktok encode 4–11× plus vite que tiktoken avec des tokens byte-identiques, via un trie 2-byte et des caches denses en C++. Sur des pipelines qui tokenisent à la volée (RAG à fort débit, batch preprocessing), c'est le genre d'optimisation qui change le profil CPU sans toucher au reste de la stack. Supporte cl100k, o200k, Llama-3, Qwen2.5/3.

Les 5 picks du jour
01
02
03
04
05