Releasen 6. mai er et stort sprang for mlx-vlm-prosjektet, som gir Apple Silicon-tilgang til vision-language-modeller via MLX. Den nye serveren støtter kontinuerlig batching kombinert med KV-cache-kvantisering, slik at flere klienter kan dele én prosess uten at hver ny forespørsel betyr full prefill. Tidligere måtte du serialisere VLM-trafikk eller akseptere at minnebruken eksploderte med samtidige sesjoner.
DFlash-spekulativ dekoding er nå støttet i alle tre modi (single, batch og server), og en egen MTP-drafter er lagt til for Gemma 4. Dette er to ulike spekuleringsmekanismer: DFlash bruker en mindre modell som drafter, mens MTP (multi-token prediction) bruker prediksjonshoder trent inn i modellen selv. På Gemma 4 kan begge kombineres med Apples Metal-kjerner for målbart raskere generering.
To PR-er fra Blaizzy gjør at lange systemprompter slipper å prefilles på nytt etter omstart: «APC prompt caching with disk persistence» og «warm-disk persistence for hybrid models». Det monner særlig på lokale agenter med stabile system-prompter.
Distribuert inferens er på plass for Qwen3.5, Kimi K2.5 og K2.6, slik at du kan splitte store VLM-er over flere maskiner i samme nettverk. Server-API-et fikk i samme slipp --max-tokens-flagget, JSON-schema som response-format, og rapportering av lastet kontekstlengde og tool-call-parser i /health-endepunktet.
Gemma 4-spesifikke fikser tar mye plass i changelog-en: tool-parser aksepterer nå funksjonsnavn med bindestrek, audio-pipeline har ryddet mel-preprosessering og vektlasting, og LoRA-trening fikser NaN i vision-backward og audio_tower-freeze-lekkasjer. SAM 3D Body kom inn som ny modell for monokulær 3D-kroppsmesh på Apple Silicon.
Hva bør du gjøre?
- Oppgrader hvis du kjører server:
pip install -U mlx-vlmog start om. Sjekk at klienter respekterer--max-tokens-grensen serveren nå håndhever. - Test kontinuerlig batching med to-tre samtidige requests og mål t/s før du flytter produksjonstrafikk over. Aktiver KV-cache-kvantisering hvis minnebruken er høy.
- Aktiver disk-persistens for prompt-cache hvis du har lange systemprompter eller agent-tilstand som ikke endres mellom kjøringer.
- For Gemma 4-brukere: kombiner MTP-drafter og APC for raskere agent-loops, men test korrekthet på ditt eget tool-kall-oppsett først.