Mens Alibabas forrige flaggskip Qwen 3.5 trengte 397 milliarder parametre fordelt på en mixture-of-experts-arkitektur, scorer den nye Qwen 3.6 27B høyere på SWE-bench Verified: 77,2 % mot 76,2 %. Forskjellen er at 27B-modellen er tett. Alle 27 milliarder parametre er aktive på hvert token, og hele modellen får plass på ett forbrukerkort.
Qwen 3.6 kommer i to varianter: en tett 27B og en raskere mixture-of-experts-utgave på 35B med 3 milliarder aktive parametre (35B A3B). Quesma-bloggen, som testet begge, anbefaler den tette 27B-en for koding: «For meg er det den første lokale modellen som faktisk gir mening som generell intelligens.» MoE-varianten er rundt tre ganger raskere, men ignorerte instruksjoner som 27B-en fulgte.
For en norsk utvikler med et homelab betyr dette at agentisk koding ikke lenger krever et API-abonnement. Modellen kjører via llama.cpp med åpne vekter lastet ned fra Hugging Face, har 256k kontekstvindu nativt, og kobles rett inn i agenter som OpenCode. Ytelsen er brukbar: rundt 30 tokens i sekundet på en Macbook M5, mer på Nvidia-kort.
«Jeg satte den opp i dag på 5090-kortet mitt med Q6_K-kvantisering, fikk 50 tokens i sekundet konsistent på 123k kontekst, og brukte rundt 28 av 32 GB VRAM via LM Studio.» — gfosco, Hacker News
Hva bør du gjøre?
- Last ned en kvantisert utgave fra Hugging Face. unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 halverer størrelsen med minimalt kvalitetstap.
- Start en lokal server:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 -ngl 999 -fa on -c 65536 --jinja --port 8080. - Pek kodeagenten din mot
http://127.0.0.1:8080/v1(OpenCode leser dette fra opencode.jsonc) og test på en reell oppgave før du dropper skyløsningen.