antirez slipper ds4: dedikert Metal-motor for DeepSeek V4 Flash, 2-bit kvantisering, KV-cache på SSD

Hvorfor fortjener én modell sin egen runtime når llama.cpp kan kjøre alt? Svaret antirez gir i ds4-repoet er presist: DeepSeek V4 Flashs komprimerte KV-cache lar lange kontekster persisteres til disk i stedet for RAM, tenke-seksjonen er proporsjonal med problemkompleksitet (opptil 1/5 av andre tenkemodeller), og 2-bit kvantisering oppfører seg godt nok til at agenter kaller verktøy pålitelig. Disse egenskapene er bortkastet i en generisk GGUF-runner.

Prosjektet er Metal-only og laster kun GGUF-er publisert spesifikt for denne motoren via download_model.sh q2 (128 GB RAM) eller q4 (256 GB+). Quantiseringen er asymmetrisk: bare routed MoE-eksperter er presset ned, mens projeksjoner og routing-lag holdes urørt. Q2-modellen veier 81 GB, q4 er bygget for Mac Studio M3 Ultra med 512 GB.

«Lokal inferens bør være tre ting som fungerer sammen ut av boksen: A) inferensmotor med HTTP API, B) GGUF skreddersydd for motoren, C) testing og validering med kodeagent-implementasjoner. Denne motoren kjører kun med GGUF-filene vi leverer.» — antirez, ds4 README

Serveren snakker både OpenAI- og Anthropic-kompatibelt API på samme port, inkludert /v1/messages for Claude Code-klienter, SSE-streaming og DSML-tool-call-mapping. Med flagget --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 flyttes KV-snapshots til SSD, slik at klienter som sender en lengre versjon av samme prompt kan gjenbruke prefiks i stedet for full prefill. Konkurrente requests serialiseres på én Metal-worker, og dette er ikke en batch-server.

antirez er åpen om at koden er bygget med kraftig hjelp fra GPT 5.5 og merker den som «alpha quality». Kjører du Linux med CUDA, er ikke ds4 for deg ennå. CPU-stien finnes kun for korrekthetstest og krasjer macOS-kjernen.

Hva bør du gjøre?

Hvis du har MacBook Pro M3 Max eller bedre med minst 128 GB RAM: klon github.com/antirez/ds4, kjør ./download_model.sh q2 og make. Vent med produksjonsbruk.
For coding-agenter: pek opencode eller andre OpenAI-kompatible klienter mot http://127.0.0.1:8000/v1 med samme --ctx-grense som serveren. 100 000 tokens er et fornuftig startpunkt på 128 GB.
Eksperimenter med disk-KV før du oppgraderer RAM: 1M-kontekst spiser 26 GB RAM bare for komprimert indeks. Realistisk grense på 128 GB-maskiner er 100–300k.