Reddit r/LocalLLaMA·19 mai 2026

Nemotron-Labs-Diffusion from NVIDIA

Signal

Hype

En 3 lignesNVIDIA publie Nemotron-Labs-Diffusion, modèle tri-mode (AR, diffusion, auto-spéculation) en 3B/8B/14B. Self-speculation combine diffusion pour le drafting et AR pour la vérification avec KV cache partagé : 3× meilleure longueur d'acceptation vs Qwen3-8B-Eagle3, 2.2× speedup, 4× speedup sur GB200 (1015 tok/sec avec kernels CUDA).

Lire la source

Ton avis ?

Génération de code Benchmarks

Résumé généré par Claude — vérifié par l'humain

Nemotron-Labs-Diffusion from NVIDIA

Autres angles sur ce sujet