Tinkerer presser Qwen3-Coder 30B inn i 8 GB VRAM med 262K-kontekst — beskriver hver flaskehals

DEV-skribenten Upayan Ghosh ble lei av å betale for hver eneste kode-prompt i skyen og kastet seg over en RTX 3060 Ti med 8 GB VRAM. Målet var ambisiøst: kjøre Qwen3-Coder-30B-A3B-Instruct lokalt med full 262 144 tokens kontekst, samme grense modellen er trent på. En tett 30B-modell ville ikke ha en sjanse på 8 GB. Men Qwen3-Coder er Mixture-of-Experts: bare et utvalg eksperter er aktive per token, så den kan splittes mellom GPU og system-RAM.

Første kjøring på Docker krasjet med Exit 137. Docker Desktop på Windows ga linux-VM-en bare 16 GB RAM, og --mlock-flagget tippet det over kanten. Han droppet --mlock, beholdt mmap, og fant deretter sweet-spotet for ekspertallokering: --n-cpu-moe 40 ga 32,5 t/s generering med 760 MiB ledig VRAM. Lavere tall ga 33,6 t/s, men bare 361 MiB ledig var for tett til å være praktisk.

«Forskjellen mellom 'umulig' og 'fungerer' var én manglende DLL pluss riktig KV-cache-format.» — Upayan Ghosh, forfatter

Den virkelige nøkkelen var KV-cache-formatet. Standard llama.cpp støtter q8_0, q4_0 og iq4_nl, men ikke turbo3 eller turbo4. De finnes bare i en spesialbygget runtime. Ghosh fant atomicmilkshake/llama-cpp-turboquant-binaries, lastet ned cublasLt64_13.dll fra en NVIDIA cuBLAS-wheel for å få binæren til å starte, og kjørte med --cache-type-k turbo4 --cache-type-v turbo3. KV-cachen for hele 262 144-vinduet tar 5 664 MiB i den moden. Total VRAM-bruk: 7 525 MiB. Ledig: rundt 500 MiB.

Bench-tallene fra det endelige oppsettet er edruelige: 40,9 t/s prompt-evaluering og 29,1 t/s generering. Det er én klient om gangen, ingen parallelle agenter, og du må stenge alt annet GPU-tungt. Men endepunktet snakker OpenAI-protokoll på http://127.0.0.1:8080/v1, og Cline, Continue og Roo Code kobler seg på uvitende om at backenden er en lokal MoE-modell på et 3 år gammelt forbrukerkort.

Hva bør du gjøre?

Hvis du har 8–12 GB VRAM og vil teste 262K-konteksten: hent runtime-en fra atomicmilkshake/llama-cpp-turboquant-binaries og bruk Ghosh' PowerShell-skript som mal.
Sjekk hvilke --cache-type-k/-v-verdier den faktiske binæren støtter med llama-server.exe --help før du stoler på guider fra nettet. Stock llama.cpp har ikke turbo-kvantene.
Kjør med --fit off. Da nekter llama.cpp å redusere konteksten i stillhet hvis VRAM blir for tett, og du vet om profilen din faktisk holder 262144 eller jobber på en mindre virkelighet.