77 tokens/sekund. 0,25 sekund time-to-first-token. 131 072 tokens kontekst. Det er hva DEV-skribenten oreocato måler etter å ha satt opp Qwen3.6-35B-A3B (4-bit kvantisert) på en Mac med 48 GB unified memory og Apples MLX-rammeverk. Endepunktet kjører på 127.0.0.1:7979 og snakker OpenAI-API-protokoll, så OpenCode, Continue og Cursor kobler seg på uten å vite at de prater med en lokal modell.
Stacken er enkel: et Python 3.11-virtuelt miljø, pip install mlx-lm mlx-openai-server, og modellen mlx-community/Qwen3.6-35B-A3B-4bit lastes automatisk fra Hugging Face (rundt 20 GB). KV-cachen tar opptil 12 GB ekstra, og det er der fellen ligger: oreocato dokumenterer at serveren kobler ned etter rundt 30 000 tokens hvis du dropper --max-bytes 12884901888. Med flagget på plass har han verifisert kjøring forbi 60 000 tokens.
«48 GB-RAM-kravet er fortsatt 'You shall not pass'-porten for mange utviklere. Apple gjorde RAM til den nye GPU-en her.» — kommentator på DEV om hvorfor Apple Silicon snur regnestykket
Trikset er hybrid MoE-arkitekturen i Qwen3.6-35B-A3B kombinert med MLX. Modellen aktiverer bare et utvalg av eksperter per token, og MLX bruker Apple Silicons unified memory så GPU og CPU deler det samme RAM-poolen. Det fjerner overføringsflaskehalsen som krever et PC-kort med 80 GB VRAM for samme jobb. 4-bit-kvantiseringen presser modellen fra rundt 70 GB til rundt 20 GB med marginalt kvalitetstap.
Oppsettet kommer med fire profiler: baseline (65k kontekst, 77,4 t/s), high_context (131k, 75,7 t/s), og to spekulative dekodingsvarianter med Qwen3.5-0.8B som draft-modell. Forskjellen mellom baseline og high_context ligger innenfor støygrensen, så standardvalget bør være high_context med mindre du kjører rene benchmarks.
Hva bør du gjøre?
- Hvis du har en M-serie Mac med 48 GB+ RAM: følg oppskriften og bruk profilen
high_contextsom standard. - Husk
--max-bytes 12884901888i startkommandoen. Uten flagget krasjer serveren forbi 30 000 tokens. - Pek OpenCode, Continue eller Cursor mot
http://127.0.0.1:7979/v1med vilkårlig API-nøkkel. Serveren validerer ikke nøkkelen, så den fungerer som drop-in-erstatning for OpenAI-trafikk i utviklingsflyten din.