Ifølge en gjennomgang på dev.to (juni 2026) kom to åpne modeller med få ukers mellomrom som flytter terskelen for selvhosting. NVIDIA slapp Nemotron 3 Ultra 4. juni: 550 milliarder parametere under en fullt permissiv lisens du kan laste ned, endre og bruke kommersielt uten tillatelse. Z.AI fulgte 13. juni med GLM-5.2, der MIT-lisensierte vekter lå ute innen uken.
Forskjellen som betyr noe for deg er maskinvaren. Nemotron 3 Ultra krever ifølge kilden minst en node med 8×H100 for å kjøre, og er rettet mot self-hosted enterprise. GLM-5.2 er den motsatte vinkelen: den lar seg kjøre lokalt på consumer-grade hardware med kvantisering, noe som gjør den aktuell for personvernsensitive prosjekter du faktisk kan sette opp selv.
«GLM-5.2 punches well above its weight class on long-context retrieval and multilingual benchmarks» — gjennomgangen på dev.to
På ytelse oppgir kilden at Nemotron 3 Ultra er konkurransedyktig med GPT-4.5-klassen på kodegenerering og resonnering, og at den slår Llama 4 på matematisk resonnering. Disse tallene er tidlige benchmarks fra én kilde, ikke uavhengig verifisert, så behandle dem som retning og ikke fasit. GLM-5.2 fremheves særlig på long-context retrieval og flerspråklighet. API-nivået starter på rundt 18 dollar i måneden, men poenget er den selvhostede stien.
Hva bør du gjøre?
- Har du 8×H100 eller tilsvarende? Test Nemotron 3 Ultra-vektene fra NVIDIA for resonnerings- og kodeoppgaver der lisensfrihet betyr noe.
- Kjører du lokalt på én GPU? Hent GLM-5.2 fra Z.AI og kjør kvantisert, særlig for flerspråklige og personvernsensitive oppsett.
- Verifiser benchmark-tallene mot dine egne oppgaver før du bytter ut en eksisterende modell, siden tallene over er tidlige og fra én kilde.