Qwen3.6-35B-A3B: Alibaba slipper MoE-modell med 35 mrd parametere der bare 3 mrd er aktive

Alibabas Qwen-team publiserte 17. april vektene på Hugging Face under åpen lisens. Modellen har 256 eksperter og aktiverer 8 rutede + 1 delt per token, bruker Gated DeltaNet for lineær oppmerksomhet og støtter 262 144 tokens kontekst nativt (utvidbar til over én million).

Interessant for deg som bygger agenter: arkitekturen tar deg bort fra koblingen mellom stor modell og stor VRAM-regning. Kun 3B aktive parametere gjør throughput langt høyere enn en tett 35B-modell på samme maskin. Det er særlig viktig hvis du allerede kjører Ollama, vLLM eller SGLang lokalt og har begrenset GPU-minne.

«Qwen3.6 prioriterer stabilitet og reell nytte, og gir utviklere en mer intuitiv, responsiv og produktiv kodeerfaring.» — Qwen-teamet, modellkort på Hugging Face

På benchmarks plasserer modellen seg foran Gemma4-31B og over forrige Qwen3.5-35B-A3B på de fleste agentiske kodeoppgavene. Den topper Terminal-Bench 2.0 med 51,5 og MCPMark med 37,0, og matcher tette Qwen3.5-27B på SWE-bench Verified med 73,4 mot 75,0. Det er en reell ytelse-for-pris-gevinst når du sammenligner aktive parametere.

>_ NØKKELTALL

35B totalt, 3B aktive Parametere per token

256 eksperter 8 rutede og 1 delt aktiveres samtidig

262 144 tokens Nativ kontekstlengde, utvidbar til 1 010 000

73,4 Score på SWE-bench Verified, opp fra 70,0 for Qwen3.5-35BA3B

Hva bør du gjøre?

Test lokalt med vLLM eller SGLang først. Teamet anbefaler sglang>=0.5.10 eller vllm>=0.19.0. Dropp Transformers for produksjon, siden inference-throughput er merkbart lavere.
Hold kontekstvinduet på minst 128K. Qwen3.6 er trent for utvidet kontekst i komplekse oppgaver, og for lavt kutt ødelegger tenke-kvaliteten. Gå heller ned på tensor parallel-størrelse.
Bruk thinking-mode for koding. Standard sampler er temp=0.6, top_p=0.95, top_k=20 for presise kodeoppgaver. For generelle agent-kall, bytt til temp=1.0.