De fleste kallene i en agent-arbeidsflyt er rutine. Et lite, kritisk utvalg krever dyp resonnering, og det er der NVIDIA Nemotron 3 Ultra skal inn. Modellen er en åpen Mixture-of-Experts på 550 milliarder parametere med 55 milliarder aktive, sluppet for å holde arkitekturbeslutninger på tvers av lange kodeøkter og veie motstridende kilder mot hverandre.
NVIDIA oppgir opptil 5x høyere gjennomstrømning enn andre åpne modeller i samme klasse, og opptil 30 % lavere kostnad fordi modellen bruker færre tokens per tur på SWE-bench og Terminal-bench 2.0. Under panseret ligger en hybrid Mamba-transformer for lange kontekster og NVFP4-presisjon, der ett og samme sjekkpunkt kjører på både Ampere, Hopper og Blackwell.
På benchmarks er bildet blandet. Nemotron 3 Ultra leder på instruksjonsfølging (IFBench 82 %) og lang kontekst (Ruler @1M 95 %), men ligger bak Kimi K2.6 og GLM 5.1 på ren koding (Terminal-Bench 2.0 54 % mot 67 %). Lisensen er Linux Foundations permissive OpenMDW-1.1, og modellen er testet mot agent-rammeverk som Hermes Agent og OpenClaw.
Hva bør du gjøre?
- Vurder Nemotron 3 Ultra som orkestrerings-modell hvis agentene dine drukner i token-kostnad på lange økter.
- Bruk en mindre modell til rutinekallene og rut bare de harde beslutningene til Ultra.
- Hent NVFP4-sjekkpunktet hvis du allerede har Ampere- eller Hopper-kort. Du slipper å bytte vekter når du oppgraderer GPU.