NVIDIA slipper Nemotron-Labs-TwoTower: diffusjonsmodell med dobbel gjennomstrømning

En vanlig språkmodell skriver ett token om gangen, og den serielle rekkefølgen setter et tak på hvor raskt den kan generere. NVIDIAs nye Nemotron-Labs-TwoTower tar en annen vei: den er en diffusjonsmodell som fyller inn flere tokens parallelt og forbedrer dem iterativt, og lander på 2,42 ganger høyere gjennomstrømning enn den autoregressive modellen den bygger på.

Trikset er å dele arbeidet i to «tårn». Ett kontekst-tårn kjører autoregressivt over prompten og de allerede skrevne tokenene, og fryses helt. Det andre, en trent denoiser, fyller inn nye blokker med maskerte tokens og henter representasjoner lag for lag fra det første tårnet. Begge starter som kopier av samme åpne backbone, Nemotron-3-Nano-30B-A3B, og bare denoiseren trenes, på rundt 2,1 billioner tokens mot backbonens 25 billioner.

Kvaliteten holder seg tett på originalen på de fleste målene: MMLU faller bare fra 78,56 til 78,24. Kode og matte taper mer, med HumanEval ned fra 79,27 til 75,58 og MATH-500 fra 84,4 til 80,6. Modellen slippes under NVIDIA Nemotron Open Model License og eksponerer tre kjøremoduser i samme checkpoint: full diffusjon, mock-AR og ren autoregressiv.

Hva bør du gjøre?

Full diffusjon krever to GPU-er (rundt 59 GB per kort i BF16, testet på to H100-kort). Har du bare ett 80 GB-kort, kjør den autoregressive modusen i stedet.
Vurder modellen for batch-generering av syntetisk tekst, der du kan bytte rundt 1,3 % kvalitet mot mer enn dobbel hastighet.