NVIDIA lâche Nemotron 3 Ultra sur HuggingFace : 550B paramètres totaux, 55B actifs, architecture MoE hybride Mamba-Transformer, pré-entraîné sur 20T tokens avec fenêtre de contexte 1M. Le chiffre clé est le débit : ×6 par rapport aux LLM publics de taille comparable, obtenu via la composante Mamba qui réduit le coût des longues séquences. Checkpoints, données et recette d'entraînement (SFT + RL + distillation multi-enseignants) sont tous ouverts — ce qui en fait l'un des releases open-source les plus complets de l'année sur ce segment de taille. Pour les équipes qui font tourner de l'inférence à grande échelle, le ratio actifs/total (10%) est le vrai levier de coût.
CODA-BENCH (arXiv:2606.15300) arrive au bon moment pour recadrer les attentes sur les agents de données. 1 009 tâches construites sur l'écosystème Kaggle, ~980 fichiers par environnement, et le meilleur agent plafonne à 61,1% de succès sur des tâches qui combinent découverte de données et exécution de code. C'est le même type de gap que l'on voyait sur les benchmarks de code pur il y a deux ans — avant que SWE-bench ne force une réévaluation des pipelines. CODA-BENCH va probablement jouer le même rôle pour les agents data-science. À mettre en regard avec PrologMCP (Claude Sonnet 4.6, GPT-4.1, o4-mini sur PARARULE-Plus) qui atteint 0.99–1.00 de précision sur le raisonnement déductif en exposant Prolog comme outil stateful via MCP : les agents ne sont pas uniformément mauvais, ils sont mauvais sur les tâches non structurées à fort volume de données, et quasi-parfaits quand le raisonnement est formalisé en amont.
En périphérie mais utile en prod : quicktok encode 4–11× plus vite que tiktoken avec des tokens byte-identiques, via un trie 2-byte et des caches denses en C++. Sur des pipelines qui tokenisent à la volée (RAG à fort débit, batch preprocessing), c'est le genre d'optimisation qui change le profil CPU sans toucher au reste de la stack. Supporte cl100k, o200k, Llama-3, Qwen2.5/3.
CODA-BENCH est le premier benchmark évaluant conjointement les capacités de code et de données des agents IA. Construit sur l'écosystème Kaggle avec 1 009 tâches et ~980 fichiers par environnement, il révèle que les meilleurs agents n'atteignent que 61,1% de succès pour intégrer découverte de données et exécution de code.
PrologMCP expose Prolog comme outil stateful via le Model Context Protocol pour les agents LLM. Testé sur PARARULE-Plus avec Claude Sonnet 4.6, GPT-4.1 et o4-mini, le système atteint 1.00 de précision sur l'ensemble général et 0.99-1.00 sur l'ensemble difficile, surpassant les modèles de reasoning sur les tâches déductives.
NVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.
quicktok est un tokeniseur BPE écrit en C++ produisant des tokens byte-identiques à tiktoken. Il encode 2–3.6× plus vite que bpe-openai et 4–11× plus vite que tiktoken lui-même. Supporte cl100k, o200k, GPT-OSS, Llama-3, Qwen2.5/3. Optimisations : trie 2-byte, caches denses, pretokenizer compilé.
Des transformers à deux couches classifient les courbes elliptiques rationnelles (rang 0 vs 1) avec >99% de précision à partir de 128 traces de Frobenius. L'analyse mécanistique révèle qu'un circuit sparse de 20 neurones implémente l'heuristique de Mestre-Nagao (poids log(p)/(p·log B), r=0.997), découverte autonome d'un résultat de théorie analytique des nombres.