kvantisering
9 SAKER INDEKSERT
Lokale åpne modeller dobler intelligens hver 10. måned: 4,7x på to år, uendret laptop
Smartest åpen modell som kjører på MacBook Pro med 128 GB RAM gikk fra Llama 3 70B (score 10) i mai 2024 til DeepSeek V4 Flash (score 47) i mai 2026, en dobling hver 10,7 måned mens maks unified memory sto på samme tallet.
Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart
Qwen 3.5 9B i Q4_K_S-kvantisering klarer 40 tokens i sekundet med 128K kontekst på en M4 med 24 GB minne, og er den eneste i en ny test som virker for daglig kodearbeid.
vibevoice.cpp: Microsofts VibeVoice kjører nå lokalt på llama.cpp-stacken via ggml
LocalAI-teamet har portet Microsofts VibeVoice til ggml-stacken som driver llama.cpp. ASR, TTS og diarisering kjører nå lokalt på CPU, CUDA, Metal og Vulkan uten Python-runtime.
Qwen3.6-35B kjører på Mac med 48 GB RAM på 77 tokens/sekund — komplett MLX-oppskrift
DEV-skribent oreocato dokumenterer hvordan du kjører Qwen3.6-35B-A3B lokalt på Mac via MLX, med 77 tokens/sekund og 131 072 tokens kontekst på 48 GB unified memory.
Intel auto-round v0.12.3: kvantiserer LLM til 2–4 bit på CPU og GPU med vLLM- og SGLang-støtte
Intel auto-round v0.12.3 kvantiserer 7B-modeller til 4 bit på rundt 10 minutter på én GPU, med vLLM- og SGLang-støtte og en INT2-DeepSeek-R1 som beholder 97,9 prosent nøyaktighet.
Google TurboQuant: KV-cache-kompresjon kutter minnebruk 6x uten retrening
«6x-forbedringen vil sannsynligvis bli brukt til lengre kontekstvinduer eller bedre modeller, ikke til å frigjøre minnet ditt,» kommenterte Merrill Lynch-analytikere etter Googles presentasjon av TurboQuant. Teknikken komprimerer KV-cachen i LLM-er under inference med to grep: PolarQuant konverterer fra kartesiske til polarkoordinater, og Quantized Johnson-Lindenstrauss (QJL) retter kvantiseringsfeil. Google har testet på Llama 3.1-8B, Gemma og Mistral uten ytelsestap, og uten retrening. TurboQuant vises på ICLR 2026 og AISTATS 2026, men det er fortsatt forskningskode — ikke en patch du kan slå på i llama.cpp i dag.
Ternary Bonsai kjører 8B-modell på 1,58 bits — 82 tokens/sek på M4 Pro uten GPU
PrismML slipper Ternary Bonsai, en modellfamilie på 1,58 bits per vekt som kjører 8B-modellen på 1,75 GB minne og 82 tokens/sek på Apple M4 Pro. Åpent under Apache 2.0 og tilgjengelig via MLX.
Gemma 4 kjører i Chrome med WebGPU: prompt-til-Excalidraw i nettleseren, 3 GB RAM
Et Show HN-demo kjører Google Gemma 4 E2B direkte i Chrome via WebGPU, og genererer Excalidraw-diagrammer fra en tekstprompt uten å ringe et sky-API en eneste gang.
1-bit kvantisering og TurboQuant: kan lokale modeller bli like raske som skytjenester?
Mens de fleste kjører 4-bit kvantiserte modeller lokalt, tester en gruppe utviklere nå 1-bit varianter av Qwen3. Resultatene fra en ny simulering viser at TurboQuant-metoden beholder overraskende mye kvalitet selv ved ekstrem komprimering. For Qwen3 30B faller benchmark-score bare 8 prosent fra full presisjon til 1-bit, mens minnebruken synker fra 60 GB til under 6 GB. Det betyr at du kan kjøre en 30B-modell på en vanlig gaming-GPU. Foreløpig er det et forskningsprosjekt, men retningen er tydelig.