NVIDIAs Nemotron 3 Super topper nå open-source-rangeringen på EnterpriseOps-Gym med 27,3 poeng i snitt, ifølge benchmark-tallene NVIDIA selv har delt. Modellen leder i TEAMS-, Email- og Hybrid-arbeidsflyter, og presser Kimi-K2.5 ned til andreplass og DeepSeek v3.2 til tredje. GPT-OSS-120B sitter på femteplass.
Benchmarken er konstruert spesielt for agent-arbeidsflyter: 1 150 oppgaver i fullt interaktive miljøer med 512 funksjonelle verktøy. Agenten må koordinere på tvers av enterprise-systemer for å fullføre én arbeidsflyt. Det er nærmere virkeligheten enn typiske MMLU- eller HumanEval-tall.
Nemotron 3 Super ble introdusert i mars 2026 som en 120B hybrid MoE med 12B aktive parametere. Arkitekturen kombinerer Mamba-lag for sekvenseffektivitet med Transformer-lag for presisjonsresonnering, og leverer ifølge NVIDIA 4x bedre minne- og compute-effektivitet enn forgjengeren. Multi-token prediction kjører innebygd speculative decoding, mens Latent MoE komprimerer tokens før de når ekspertene slik at modellen kan kalle 4x flere spesialister for samme inferenskostnad.
Det er en hake. Native NVFP4-pretraining er optimalisert for NVIDIA Blackwell. NVIDIA hevder 4x raskere inferens på B200 sammenlignet med FP8 på H100. Hvis du står på H100 eller eldre kort, vil du ikke se de tallene NVIDIA viser frem. Modellen er post-trent med RL på 21 ulike miljøkonfigurasjoner og over 1,2 millioner environment-rollouts via NeMo Gym og NeMo RL.
For norske utviklere som velger åpen modell til agent-stacker er konkurransebildet endret: tre forskjellige aktører (NVIDIA, Moonshot/Kimi, DeepSeek) ligger innenfor noen poeng på toppen. Det betyr at valget i økende grad handler om økosystem og hardware-binding, ikke ren modellkvalitet.
Hva bør du gjøre?
- Hvis du allerede kjører Blackwell-instanser i sky: test Nemotron 3 Super mot din faktiske agent-arbeidsflyt før du bytter. EnterpriseOps-Gym er en proxy, ikke produksjonen din.
- På H100 eller eldre maskinvare: kjør benchmarks selv. NVFP4-fordelen forsvinner, og Kimi-K2.5 eller DeepSeek v3.2 kan levere bedre tokens per krone.
- Bruk 1M-kontekstvinduet med omhu. Lange kontekster gir treghet og kostnad selv med MoE, og innholdsstrategi (RAG, summarization) slår ofte rå kontekstlengde.