Nvidia Nemotron 3 Nano Omni: 30B parametere, 3B aktive, kjører på én GPU
SYNOPSIS_GENERERT
30 milliarder parametere totalt, 3 milliarder aktive per token og kontekstvindu på 262 000 tokens. Nvidias Nemotron 3 Nano Omni er en omni-modell som får plass på én GPU. Arkitekturen er en Mamba-Transformer-hybrid med MoE-routing der bare nødvendige eksperter aktiveres per modalitet (tekst, bilde, video, lyd). Vektene ligger på Hugging Face under Nvidia Nemotron Open Model License, og kan kjøres via vLLM, SGLang eller Ollama. Nvidia rapporterer rundt 9 ganger kapasitet på video-reasoning og 7 ganger på multi-dokument-resonnering mot andre omni-modeller. Sikter mot edge-deployment på DGX Spark, Jetson og andre Ampere/Hopper/Blackwell-rigger.
Hva betyr dette i praksis
Hvis du bygger en agent som skal forstå mer enn ren tekst, har du nå en omni-modell som faktisk kan kjøre på en lokal Jetson eller en single-GPU-rigg uten ekstreme kvantiseringstriks. NVFP4-kvantisering er tilgjengelig hvis du vil presse VRAM-bruken videre. Omni-modeller på edge åpner for hjemmeprosjekter der video- og lyd-input er en del av kjøreflyten, ikke bare tekst.