Alibaba slapp Qwen3.6-35B-A3B denne uken som en åpen modell med vektene tilgjengelig på både Hugging Face og ModelScope. Arkitekturen er Mixture-of-Experts: 35 milliarder totale parametere, men kun 3 milliarder aktive per token ved kjøretid. Det gir deg ytelse nær en tett 35B-modell med minnekrav som ligger nærmere en 3B-modell under inferens.
På SWE-bench Verified, som måler autonom feilretting i reelle kodeprosjekter, scorer Qwen3.6-35B-A3B 73,4 mot Googles Gemma 4-31B på 52,0. På Terminal-Bench 2.0 er forskjellen 51,5 mot 42,9. For resonnering-benchmarks som GPQA (86,0 vs. 84,3) og AIME26 (92,7 vs. 89,2) er marginene mindre, men fortsatt i Alibabas favør.
«For bilde- og videooppgaver konkurrerer modellen med Claude Sonnet 4.5» — Alibabas egen benchmark-rapport
Modellen har både en «thinking mode» og en «non-thinking mode», samme mønster som Qwen 3.5 og DeepSeek R1. Du kan teste den direkte i Qwen Studio, kalle den via API som Qwen3.6-Flash på Alibaba Cloud Model Studio, eller laste ned vektene selv.
Hva bør du gjøre?
- Last ned vektene fra Hugging Face og kjør en liten benchmark mot din eksisterende stack (Qwen 3.5, DeepSeek, Llama 4) før du bytter.
- Verifiser benchmark-tallene selv. Alibaba publiserer sine egne tall, og SWE-bench-score varierer med rammeverk og eval-oppsett.
- Hvis du kjører Ollama eller vLLM lokalt, sjekk at runtime-et støtter MoE-routing før du bruker tid på nedlasting. Ikke alle quant-formater håndterer aktiveringsmønsteret godt.