#kvantisering

21 saker med denne taggen

I går · mandag 20. juli

12:36

12:36 Modell · 2 min · Hi-Tech.ua

Bonsai 27B kjører 27 milliarder vekter på iPhone i 3,9 GB

Søndag 19. juli

13:01

13:01 Forskning · 2 min · Tech Times

PrismML klemmer en 27 milliarder-parameter KI-modell ned til under 4 GB for iPhone

Fredag 17. juli

04:27

04:27 Bransje · 2 min · WinBuzzer

Apple vurderer PrismMLs komprimeringsteknologi for større KI-modeller på iPhone

Onsdag 15. juli

16:28

16:28 Forskning · Lenke · DEV Community

KronQ får 2-bit-modeller til å virke der GPTQ kollapser

04:46

04:46 Modell · 2 min · MarkTechPost

PrismML Bonsai 27B: 1-bit og ternære versjoner av Qwen3.6-27B kjører på laptop og telefon

Tirsdag 14. juli

16:24

16:24 Modell · 2 min · Baseten

StepFun slipper Step 3.7 Flash: 198 milliarder parametre på fire H100-kort

04:19

04:19 Verktøy · 2 min · Creative AI News

Kjør Qwen3.6 2,5x raskere lokalt med Unsloth NVFP4

Søndag 12. juli

04:21

04:21 Verktøy · 2 min · DEV Community

Unsloths NVFP4-quants kjører Qwen3.6 2,5x raskere, men bare på Blackwell

Fredag 10. juli

08:36

08:36 Verktøy · 4 min · GitHub

Colibri kjører GLM 5.2 på 25 GB RAM ved å streame eksperter fra disk

Torsdag 2. juli

08:20

08:20 Forskning · Lenke · AIJourn

STAR-KV komprimerer KV-cache opptil 20x, valgt som ICML 2026-spotlight-artikkel

Onsdag 1. juli

20:22

20:22 Forskning · 2 min · The Register

SEMQ-metoden kutter minnebruk for KI-modeller uten å tape nøyaktighet

Søndag 7. juni

10:10

10:10 Modell · 2 min · Google Blog

Gemma 4 får QAT-kvantisering: E2B-modellen krymper til 1 GB minne

Onsdag 13. mai

10:34

10:34 Forskning · 3 min · Hugging Face

Lokale åpne modeller dobler intelligens hver 10. måned: 4,7x på to år, uendret laptop

Mandag 11. mai

22:18

22:18 Verktøy · 3 min · jola.dev

Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart

Onsdag 6. mai

22:32

22:32 Verktøy · 2 min · GitHub: localai-org/vibevoice.cpp

vibevoice.cpp: Microsofts VibeVoice kjører nå lokalt på llama.cpp-stacken via ggml

02:15

02:15 Verktøy · 2 min · DEV Community

Qwen3.6-35B kjører på Mac med 48 GB RAM på 77 tokens/sekund — komplett MLX-oppskrift

Fredag 1. mai

18:18

18:18 Verktøy · 2 min · github.com/intel

Intel auto-round v0.12.3: kvantiserer LLM til 2–4 bit på CPU og GPU med vLLM- og SGLang-støtte

14:16

14:16 Forskning · 1 min · AI Pressa

Google TurboQuant: KV-cache-kompresjon kutter minnebruk 6x uten retrening

Tirsdag 21. april

06:15

06:15 Forskning · 2 min · PrismML

Ternary Bonsai kjører 8B-modell på 1,58 bits — 82 tokens/sek på M4 Pro uten GPU

Søndag 19. april

22:10

22:10 Verktøy · 2 min · Hacker News / Show HN

Gemma 4 kjører i Chrome med WebGPU: prompt-til-Excalidraw i nettleseren, 3 GB RAM

Torsdag 2. april

12:50

12:50 Forskning · Lenke · LocalLlama