Multi-token processing er den tekniske endringen som gir hoppet. I stedet for å generere ett token om gangen, foreslår en lett «draft»-modell flere tokens i parallell, og hovedmodellen verifiserer eller forkaster blokken. Når draften treffer ofte (typisk på koding der Gemma 4 har lett predikerbare mønstre), blir wall-clock tiden mer enn halvert. Endringen ligger i Pull Request #15980 fra Patrick Devine og krever modellvarianten gemma4:31b-coding-mtp-bf16.
Releasenoten lister tre konkrete endringer: oppdatert MLX og MLX-C med threading-fikser fra Daniel Hiltgen (#15845), Go bumpet til 1.26 (#15904), og selve MTP-implementasjonen. Threading-fiksen er verdt å merke seg hvis du har kjørt MLX-modeller på Apple Silicon og opplevd hangs eller ujevn ytelse. Det er et separat sett bug-fikser som lander samtidig.
Modellnavnet røper hvor vi er i Gemma-syklusen: gemma4:31b-coding-mtp-bf16 er en spesialisert kodingsvariant lagret i bf16-presisjon (rundt 60 GB). På en M3 Max med 128 GB unified memory passer den greit. På en 36 GB-maskin må du fortsatt holde deg til kvantiserte varianter, og MTP-akselerasjonen er foreløpig kun på bf16-modellen.
For deg som koder på Mac og allerede bruker Ollama lokalt, er dette en enkel oppgradering uten brytende endringer. Drar du nytte av speed-up-en avhenger først og fremst av om du har RAM nok til å laste 31B-modellen i bf16.
Hva bør du gjøre?
- Kjør
ollama --versionfor å sjekke om du er på 0.23.1 eller eldre, og oppdater viaollama updateeller pakkebehandleren din. - Hvis du har 64 GB RAM eller mer, last ned
gemma4:31b-coding-mtp-bf16og benchmark mot din egen workload. Speed-up-en er rapportert spesifikt for kodingsoppgaver, ikke generell tekstgenerering. - På mindre Macs, vent på kvantiserte MTP-varianter eller hold deg til Gemma 4 27B og mindre. MTP er ennå ikke utvidet til kvantiserte versjoner.