Qwen3.6-35B-A3B: Alibaba åpner MoE-modell med 262 144 tokens kontekst

35 milliarder parametere totalt, 3 milliarder aktive. Det er konfigurasjonen Alibaba nå har åpnet vektene til for Qwen3.6-35B-A3B, den første åpen-vekt-varianten av Qwen3.6-serien. Modellen er en Mixture-of-Experts med 256 eksperter der 8 rutes pluss 1 delt ekspert aktiveres per token — samme mønster som forrige A3B-variant, men oppgradert på stabilitet og agentisk koding.

Den native kontekstlengden er 262 144 tokens og kan strekkes til 1 010 000 tokens med skalering. På Terminal-Bench 2.0 scorer Qwen3.6-35B-A3B 51,5 — høyere enn både Qwen3.5-27B (41,6) og Gemma4-31B (42,9) som er dense-modeller med langt flere aktive parametere. På SWE-bench Verified leverer den 73,4, omtrent på linje med den dense Qwen3.5-27B (75,0), men med en brøkdel av inference-kostnaden.

>_ NØKKELTALL

35B / 3B

totale og aktive parametere (MoE med 256 eksperter, 8 rutes + 1 delt)

262 144 tokens

native kontekstlengde, skalerbar til 1 010 000

51,5

Terminal-Bench 2.0-score, best i direkte sammenligning mot Qwen3.5 og Gemma4

Apache 2.0

lisens på Hugging Face

To nye egenskaper er verdt å merke seg for deg som bygger agenter. Den første er thinking preservation: modellen kan beholde resonneringskontekst fra historiske meldinger slik at iterative arbeidsflyter ikke mister tråden mellom kall. Den andre er en oppgradert visjonsenkoder som gjør Qwen3.6 til en kausal språkmodell med multimodal input ut av boksen — ingen separat VL-variant nødvendig.

Kjøringen er standard for økosystemet: vektene er publisert på Hugging Face i formatet Transformers forventer, og er kompatible med vLLM, SGLang og KTransformers. Alibaba oppgir at agentisk koding og frontend-workflow har fått mest oppmerksomhet i post-training — modellen scorer 1397 på QwenWebBench mot Gemma4-31B på 1197.

Hva bør du gjøre?

Vurder Qwen3.6-35B-A3B som byttekandidat for agent-arbeidsflyter der du i dag bruker GPT-5-mini eller Claude Haiku. Benchmark-numrene antyder at kostnadsforholdet er attraktivt hvis du kan kjøre selvhostet.
Hvis du har tilgang til 2x H100 eller en Mac Studio med 192 GB: test den 1 010 000 tokens-strukture konteksten på en reell monorepo-oppgave før du tror tallene. Lang kontekst er ofte bedre i teorien enn i praksis.
Les Hugging Face-kortet før du integrerer: den bruker Gated DeltaNet-laget sammen med Gated Attention, et hybridoppsett som kan kreve oppdaterte runtime-biblioteker.