Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
GitHub (Blaizzy/mlx-vlm) · 7.5., 20:16 · verktøy

mlx-vlm v0.5.0: kontinuerlig batching, MTP-spekulering og Gemma 4-video på Apple Silicon

SYNOPSIS_GENERERT

Prince Canuma slapp v0.5.0 av mlx-vlm 6. mai med 60 nye PR-er og 18 førstegangsbidragsytere. Kontinuerlig batching i serveren, KV-cache-kvantisering og DFlash-spekulativ dekoding kommer samtidig.

Releasen 6. mai er et stort sprang for mlx-vlm-prosjektet, som gir Apple Silicon-tilgang til vision-language-modeller via MLX. Den nye serveren støtter kontinuerlig batching kombinert med KV-cache-kvantisering, slik at flere klienter kan dele én prosess uten at hver ny forespørsel betyr full prefill. Tidligere måtte du serialisere VLM-trafikk eller akseptere at minnebruken eksploderte med samtidige sesjoner.

DFlash-spekulativ dekoding er nå støttet i alle tre modi (single, batch og server), og en egen MTP-drafter er lagt til for Gemma 4. Dette er to ulike spekuleringsmekanismer: DFlash bruker en mindre modell som drafter, mens MTP (multi-token prediction) bruker prediksjonshoder trent inn i modellen selv. På Gemma 4 kan begge kombineres med Apples Metal-kjerner for målbart raskere generering.

To PR-er fra Blaizzy gjør at lange systemprompter slipper å prefilles på nytt etter omstart: «APC prompt caching with disk persistence» og «warm-disk persistence for hybrid models». Det monner særlig på lokale agenter med stabile system-prompter.

Distribuert inferens er på plass for Qwen3.5, Kimi K2.5 og K2.6, slik at du kan splitte store VLM-er over flere maskiner i samme nettverk. Server-API-et fikk i samme slipp --max-tokens-flagget, JSON-schema som response-format, og rapportering av lastet kontekstlengde og tool-call-parser i /health-endepunktet.

Gemma 4-spesifikke fikser tar mye plass i changelog-en: tool-parser aksepterer nå funksjonsnavn med bindestrek, audio-pipeline har ryddet mel-preprosessering og vektlasting, og LoRA-trening fikser NaN i vision-backward og audio_tower-freeze-lekkasjer. SAM 3D Body kom inn som ny modell for monokulær 3D-kroppsmesh på Apple Silicon.

Hva bør du gjøre?

  1. Oppgrader hvis du kjører server: pip install -U mlx-vlm og start om. Sjekk at klienter respekterer --max-tokens-grensen serveren nå håndhever.
  2. Test kontinuerlig batching med to-tre samtidige requests og mål t/s før du flytter produksjonstrafikk over. Aktiver KV-cache-kvantisering hvis minnebruken er høy.
  3. Aktiver disk-persistens for prompt-cache hvis du har lange systemprompter eller agent-tilstand som ikke endres mellom kjøringer.
  4. For Gemma 4-brukere: kombiner MTP-drafter og APC for raskere agent-loops, men test korrekthet på ditt eget tool-kall-oppsett først.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN