Z.AI slipper GLM-5.1 med åtte timers autonomi og MIT-vekter på Hugging Face

GLM-5.1 fra kinesiske Z.AI scorer 58,4 på SWE-Bench Pro og slår Claude Opus 4.6, GPT-5.4 og Gemini 3.1 Pro på samme test, ifølge dokumentasjonssiden Z.AI publiserte. Modellen er sluppet under MIT-lisens på Hugging Face, både i full-presisjon og som FP8-kvantisert variant for selvhostet inferens.

Kontekstvinduet er 200 000 tokens inn og 128 000 ut. Den reelle forskjellen ligger i hvor lenge modellen kan jobbe alene: Z.AI hevder GLM-5.1 kan kjøre opptil åtte timer på én oppgave, fra planlegging og eksekvering til testing og fiksing før den leverer ferdig resultat. Det gjør den til den første kinesiske modellen som passerer den terskelen, og en av få modeller overhodet med dokumentert åtte-timers autonomi.

I et eksempel beskrevet på dokumentasjonssidene bygde modellen et komplett Linux desktop-system fra bunnen i løpet av åtte timer, gjennom 655 selvstyrte iterasjoner. På KernelBench Level 3 oppnår GLM-5.1 3,6× speedup på reelle ML-workloads, markant over de 1,49× torch.compile leverer i max-autotune-modus. Modellen er optimalisert spesifikt for agentiske kodeflyt som Claude Code og OpenClaw.

«GLM-5.1 forbedres ikke bare på én metrikk. Modellen løfter seg samtidig på generell intelligens, reell-verdens koding og kompleks oppgaveutførelse.» — Z.AI, fra GLM-5.1-dokumentasjonen

For en norsk utvikler som vil teste agentisk koding lokalt eller på leie-GPU-er, er MIT-lisensen tung. Du kan kjøre modellen på egen server, mate proprietær kode inn uten å sende den til en amerikansk leverandør, og slipper rate-limits eller pris-overraskelser. FP8-varianten gjør den realistisk å kjøre på relativt rimelig hardware (én H200 eller to L40-er), selv om åtte-timers-arbeidsflyt mest sannsynlig krever batch-orkestrering.

>_ NØKKELTALL

58,4

Score på SWE-Bench Pro

200 000 / 128 000

Tokens inn / ut per kall

655 iterasjoner

Selvstyrte forbedringer i Linux-eksperimentet

Hva bør du gjøre?

Hent zai-org/GLM-5.1-FP8 fra Hugging Face hvis du har en H200 eller tilsvarende, og test den mot dine egne SWE-oppgaver.
Ved langvarige agentkjøringer i din egen pipeline, bytt ut Claude Opus i kostbare dev-loops med GLM-5.1 og sammenlign sluttresultatet.
Sjekk at MIT-lisensen passer arbeidsgivers compliance-krav før du distribuerer modellen videre. Kinesiske vekter har vært gjenstand for diskusjon.