Alibaba Qwen3.6-35B-A3B slår Gemma 4-31B på alle kodebenchmarker — aktiverer bare 3B parametere

Alibaba slapp Qwen3.6-35B-A3B denne uken som en åpen modell med vektene tilgjengelig på både Hugging Face og ModelScope. Arkitekturen er Mixture-of-Experts: 35 milliarder totale parametere, men kun 3 milliarder aktive per token ved kjøretid. Det gir deg ytelse nær en tett 35B-modell med minnekrav som ligger nærmere en 3B-modell under inferens.

På SWE-bench Verified, som måler autonom feilretting i reelle kodeprosjekter, scorer Qwen3.6-35B-A3B 73,4 mot Googles Gemma 4-31B på 52,0. På Terminal-Bench 2.0 er forskjellen 51,5 mot 42,9. For resonnering-benchmarks som GPQA (86,0 vs. 84,3) og AIME26 (92,7 vs. 89,2) er marginene mindre, men fortsatt i Alibabas favør.

«For bilde- og videooppgaver konkurrerer modellen med Claude Sonnet 4.5» — Alibabas egen benchmark-rapport

Modellen har både en «thinking mode» og en «non-thinking mode», samme mønster som Qwen 3.5 og DeepSeek R1. Du kan teste den direkte i Qwen Studio, kalle den via API som Qwen3.6-Flash på Alibaba Cloud Model Studio, eller laste ned vektene selv.

>_ NØKKELTALL

35B/3B

Totale parametere vs. aktive per token

73,4 vs. 52,0

SWE-bench Verified-score mot Gemma 4-31B

92,7

AIME26-score, mot 89,2 for Gemma 4-31B

Hva bør du gjøre?

Last ned vektene fra Hugging Face og kjør en liten benchmark mot din eksisterende stack (Qwen 3.5, DeepSeek, Llama 4) før du bytter.
Verifiser benchmark-tallene selv. Alibaba publiserer sine egne tall, og SWE-bench-score varierer med rammeverk og eval-oppsett.
Hvis du kjører Ollama eller vLLM lokalt, sjekk at runtime-et støtter MoE-routing før du bruker tid på nedlasting. Ikke alle quant-formater håndterer aktiveringsmønsteret godt.