Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
Signal
82
Hype
35
En 3 lignesNVIDIA présente Nemotron 3 Ultra, un modèle MoE hybride Mamba-Transformer de 550B paramètres (55B actifs) pré-entraîné sur 20T tokens avec contexte 1M. Utilise SFT, RL et distillation multi-enseignants. Atteint ~6x le débit d'inférence des LLM publics avec précision équivalente. Checkpoints, données et recette open-sourcés sur HuggingFace.Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain