Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
DEV Community · 6.5., 00:15 · verktøy

Qwen3.6-35B kjører på Mac med 48 GB RAM på 77 tokens/sekund — komplett MLX-oppskrift

SYNOPSIS_GENERERT

DEV-skribent oreocato dokumenterer hvordan du kjører Qwen3.6-35B-A3B lokalt på Mac via MLX, med 77 tokens/sekund og 131 072 tokens kontekst på 48 GB unified memory.

77 tokens/sekund. 0,25 sekund time-to-first-token. 131 072 tokens kontekst. Det er hva DEV-skribenten oreocato måler etter å ha satt opp Qwen3.6-35B-A3B (4-bit kvantisert) på en Mac med 48 GB unified memory og Apples MLX-rammeverk. Endepunktet kjører på 127.0.0.1:7979 og snakker OpenAI-API-protokoll, så OpenCode, Continue og Cursor kobler seg på uten å vite at de prater med en lokal modell.

Stacken er enkel: et Python 3.11-virtuelt miljø, pip install mlx-lm mlx-openai-server, og modellen mlx-community/Qwen3.6-35B-A3B-4bit lastes automatisk fra Hugging Face (rundt 20 GB). KV-cachen tar opptil 12 GB ekstra, og det er der fellen ligger: oreocato dokumenterer at serveren kobler ned etter rundt 30 000 tokens hvis du dropper --max-bytes 12884901888. Med flagget på plass har han verifisert kjøring forbi 60 000 tokens.

«48 GB-RAM-kravet er fortsatt 'You shall not pass'-porten for mange utviklere. Apple gjorde RAM til den nye GPU-en her.» — kommentator på DEV om hvorfor Apple Silicon snur regnestykket

Trikset er hybrid MoE-arkitekturen i Qwen3.6-35B-A3B kombinert med MLX. Modellen aktiverer bare et utvalg av eksperter per token, og MLX bruker Apple Silicons unified memory så GPU og CPU deler det samme RAM-poolen. Det fjerner overføringsflaskehalsen som krever et PC-kort med 80 GB VRAM for samme jobb. 4-bit-kvantiseringen presser modellen fra rundt 70 GB til rundt 20 GB med marginalt kvalitetstap.

Oppsettet kommer med fire profiler: baseline (65k kontekst, 77,4 t/s), high_context (131k, 75,7 t/s), og to spekulative dekodingsvarianter med Qwen3.5-0.8B som draft-modell. Forskjellen mellom baseline og high_context ligger innenfor støygrensen, så standardvalget bør være high_context med mindre du kjører rene benchmarks.

>_ NØKKELTALL
77,4 t/s: målt generering, baseline-profil
0,25 s: time-to-first-token
131 072: maks kontekstvinduet
20 GB: modellvekter etter 4-bit-kvantisering
12 GB: KV-cache-tak satt med --max-bytes

Hva bør du gjøre?

  1. Hvis du har en M-serie Mac med 48 GB+ RAM: følg oppskriften og bruk profilen high_context som standard.
  2. Husk --max-bytes 12884901888 i startkommandoen. Uten flagget krasjer serveren forbi 30 000 tokens.
  3. Pek OpenCode, Continue eller Cursor mot http://127.0.0.1:7979/v1 med vilkårlig API-nøkkel. Serveren validerer ikke nøkkelen, så den fungerer som drop-in-erstatning for OpenAI-trafikk i utviklingsflyten din.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN