NVIDIA slipper Nemotron-Labs-Diffusion: én modell med tre dekodingsmoduser fra 3B til 14B

Autoregressive språkmodeller lager ett token om gangen, fra venstre mot høyre, og hvert token venter på alle de foregående. På én enkelt forespørsel, som er det typiske når du kjører en modell lokalt på egen maskin, utnytter det GPU-en dårlig. NVIDIA-forskere angriper nettopp dette med Nemotron-Labs-Diffusion, en modellfamilie i 3B, 8B og 14B med base-, instruct- og vision-language-varianter.

Det nye er at samme vekter kan kjøre i tre moduser ved inferens, uten arkitekturendringer mellom dem. Autoregressiv modus er vanlig venstre-til-høyre og passer skytjenester med mange samtidige brukere. Diffusjonsmodus avstøyer flere tokens parallelt innenfor en blokk. Selvspekulasjon lar diffusjonsbanen lage et utkast som den autoregressive banen verifiserer i samme modell, uten en egen utkastmodell ved siden av. Treningen kombinerer de to målene med en koeffisient på 0,3, og NVIDIA fant at begge modusene topper seg på samme verdi: det ene går ikke på bekostning av det andre.

For deg som kjører modeller lokalt er gevinsten gjennomstrømning ved lav belastning. På 8B-modellen oppnår selvspekulasjon 5,99x flere tokens per forward og 2,4x høyere gjennomstrømning enn Qwen3-8B med Eagle3 ved batch-størrelse 1. NLD-14B slår til og med Qwen3-14B på nøyaktighet, 66,36 % mot 65,17 %, samtidig som den kjører nesten seks ganger flere tokens per steg.

Forskjellen ligger i hvor mange tokens modellen bekrefter per steg. Der Eagle3 i snitt godtar 2,75 tokens per utkaststeg, lander Nemotron-Labs-Diffusion på 6,82 med LoRA. NVIDIA oppgir samtidig et teoretisk tak på 7,60x for diffusjonsmodus, mot rundt 3x i praksis i dag, så det er fortsatt rom å hente før modellen treffer taket.

>_ NØKKELTALL

6,82

tokens per utkaststeg, NLD med LoRA

4,24

samme mål for Qwen3-9B med MTP

2,75

og for Eagle3, den vanligste baseline

Hva bør du gjøre?

Sjekk om 8B- eller 14B-instruct-varianten passer VRAM-budsjettet ditt før du laster ned vektene fra Hugging Face: diffusjonsmodus trenger fortsatt plass til KV-cache per blokk.

Test selvspekulasjon-modus hvis du kjører enkeltbruker-oppsett lokalt, for det er der gevinsten på 2,4x er størst, ikke i sky med høy samtidighet.
Mål faktisk gjennomstrømning på din egen maskin: tallene fra NVIDIA er fra GB200, RTX Pro 6000 og DGX Spark, og akselerasjonen varierer med maskinvaren.