Nemotron-Labs-Diffusion from NVIDIA
Signal
82
Hype
25
En 3 lignesNVIDIA publie Nemotron-Labs-Diffusion, modèle tri-mode (AR, diffusion, auto-spéculation) en 3B/8B/14B. Self-speculation combine diffusion pour le drafting et AR pour la vérification avec KV cache partagé : 3× meilleure longueur d'acceptation vs Qwen3-8B-Eagle3, 2.2× speedup, 4× speedup sur GB200 (1015 tok/sec avec kernels CUDA).Lire la source
Ton avis ?
Résumé généré par Claude — vérifié par l'humain