Qwen 3.6 27B: 27 milliarder parametre slår 397 milliarder på koding

Mens Alibabas forrige flaggskip Qwen 3.5 trengte 397 milliarder parametre fordelt på en mixture-of-experts-arkitektur, scorer den nye Qwen 3.6 27B høyere på SWE-bench Verified: 77,2 % mot 76,2 %. Forskjellen er at 27B-modellen er tett. Alle 27 milliarder parametre er aktive på hvert token, og hele modellen får plass på ett forbrukerkort.

Qwen 3.6 kommer i to varianter: en tett 27B og en raskere mixture-of-experts-utgave på 35B med 3 milliarder aktive parametre (35B A3B). Quesma-bloggen, som testet begge, anbefaler den tette 27B-en for koding: «For meg er det den første lokale modellen som faktisk gir mening som generell intelligens.» MoE-varianten er rundt tre ganger raskere, men ignorerte instruksjoner som 27B-en fulgte.

For en norsk utvikler med et homelab betyr dette at agentisk koding ikke lenger krever et API-abonnement. Modellen kjører via llama.cpp med åpne vekter lastet ned fra Hugging Face, har 256k kontekstvindu nativt, og kobles rett inn i agenter som OpenCode. Ytelsen er brukbar: rundt 30 tokens i sekundet på en Macbook M5, mer på Nvidia-kort.

«Jeg satte den opp i dag på 5090-kortet mitt med Q6_K-kvantisering, fikk 50 tokens i sekundet konsistent på 123k kontekst, og brukte rundt 28 av 32 GB VRAM via LM Studio.» — gfosco, Hacker News

>_ NØKKELTALL

77,2 %: SWE-bench Verified, mot 76,2 % for 14 ganger større Qwen 3.5-397B

53,5 %: SWE-bench Pro

59,3 %: Terminal-Bench 2.0

94,1 %: AIME 2026 (matte)

Hva bør du gjøre?

Last ned en kvantisert utgave fra Hugging Face. unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 halverer størrelsen med minimalt kvalitetstap.
Start en lokal server: llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 -ngl 999 -fa on -c 65536 --jinja --port 8080.
Pek kodeagenten din mot http://127.0.0.1:8080/v1 (OpenCode leser dette fra opencode.jsonc) og test på en reell oppgave før du dropper skyløsningen.