Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart

«Bakdelen med SOTA-modeller er at de gjør det altfor enkelt å offshore alt kognitivt arbeid, selv når du aktivt prøver å unngå det.» — Jola Holdings, jola.dev

Det er argumentet for å bruke en svakere lokal modell selv når du har en betalt Claude- eller GPT-konto liggende. Forfatteren bak jola.dev testet flere åpne modeller på en MacBook Pro med Apple M4 og 24 GB minne, og endte med Qwen 3.5 9B kvantisert til 4-bit (q4_k_s) som det eneste praktisk brukbare valget. Modellen leverer rundt 40 tokens i sekundet, støtter 128K kontekstvindu og fungerer med både thinking-modus og verktøykall via LM Studio.

Listen over modeller som teknisk passer i minnet, men feiler på praksis, er lang: Qwen 3.6 Q3, GPT-OSS 20B og Devstral Small 24B kjører alle, men er ubrukelige i daglig flyt. Gemma 4B går fint, men sliter med verktøyintegrasjoner. Begrensningen er ikke bare modellstørrelse. Den ligger i hvor mye minne som blir igjen til Electron-apper, hvilken K Cache Quantization Type du velger, og om thinking-modus må slås av for å holde ytelsen oppe.

For den interaktive arbeidsflyten testen beskriver, fungerer Qwen 3.5 9B godt som rubber duck og research-assistent, men ikke som autonom agent. I én test løste modellen en credo-warning i Elixir korrekt med fire parallelle redigeringer. I en annen foreslo den riktig løsning på en mix.lock-konflikt fra Dependabot, men hang seg etter at git rebase --continue åpnet Vim utenfor en terminal-økt den kunne håndtere.

«Det er ikke det 10x produktivitetsløftet de store KI-selskapene markedsfører, men det er noe, og det er interessant.» — Jola Holdings

>_ NØKKELTALL

40 tok/s: Qwen 3.5 9B Q4_K_S med thinking aktivert

128K: kontekstvindu på testmaskinen

24 GB: totalt unified memory

q4_k_s: kvantiseringsnivå som balanserer kvalitet og minnebruk

Hva bør du gjøre?

Last ned LM Studio og hent qwen3.5-9b@q4_k_s fra HuggingFace. Aktiver thinking ved å legge {%- set enable_thinking = true %} i Prompt Template-feltet under Inference-tabben.
Pek OpenCode eller Pi mot http://localhost:1234/v1. Begge støtter LM Studios OpenAI-kompatible endpoint, og du kan bytte mellom dem uten å rekonfigurere modellen.
Bruk lokal modell for trinnvis dialog, ikke autonom kjøring. Spar SOTA-modellene til oppgaver der du faktisk vil offshore tenkningen, og bygg vanen med å aktivt styre den lokale.