Nvidia Nemotron 3 Nano Omni: 30B parametere, 3B aktive, multimodal modell for én GPU

30 milliarder parametere totalt, men bare 3 milliarder aktive per inferens. Det er kjernen i Nvidias nye Nemotron 3 Nano Omni, en åpen multimodal modell som ble sluppet på Hugging Face under Nvidias Open Model Agreement med fulle kommersielle rettigheter. Arkitekturen kombinerer syn, lyd, video og tekst i én modell med 23 Mamba-2-lag, 23 mixture-of-experts-lag (128 eksperter, 6 aktive per token), seks grouped-query attention-lag og 256 000 tokens kontekstvindu. Basismodellen er pretrent på 25 billioner tokens.

Nvidia hevder modellen leverer 9 ganger høyere gjennomstrømming enn sammenlignbare åpne multimodale modeller med samme interaktivitet, 2,9 ganger raskere single-stream-resonering, og topper seks benchmarks innen dokumentforståelse, video og lyd. Det praktiske poenget er at den kjører på én GPU. Maskinvarealternativene Nvidia peker på inkluderer DGX Spark og DGX Station, og deploy-stiene dekker vLLM, SGLang, Ollama, llama.cpp og TensorRT-LLM.

«Maximise capability per active parameter rather than total parameters, because edge deployment is constrained not by model size at rest but by compute per inference step.» — Nvidias designprinsipp ifølge The Next Web

For deg som bygger lokale agenter som må prosessere skjermbilder, dokumenter eller tale samtidig, er den arkitektoniske vinklingen interessant. I stedet for å lenke separate spesialistmodeller for syn, tale og tekst, ruter Nemotron alle modaliteter gjennom samme transformer, og hver token aktiverer eksperter avhengig av modalitet. Det fjerner inter-modell-latens som gjør pipeline-arkitekturer ubrukelige for sanntidsagenter.

Hva bør du gjøre?

Hent vektene fra Hugging Face og test først via Ollama eller llama.cpp hvis du vil kjøre på lokal hardware uten Nvidia-spesifikke runtime-verktøy.
Sjekk Open Model Agreement-lisensen før kommersiell bruk. Den er ikke standard MIT/Apache; den har egne klausuler.
Hvis bruksmønsteret er rent tekst, vurder mindre dense modeller først. Multimodal-MoE-arkitekturen kommer med VRAM-overhead selv når bare 3B aktiveres.