Retour au feed
arXiv cs.CL·

Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Signal
82
Hype
35
En 3 lignesNVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.
Lire la source
Ton avis ?
Agents IARaisonnementOpen sourceReinforcement learningFine-tuning

Résumé généré par Claude — vérifié par l'humain