Gemma 4 får MTP-drafters: opp til 3x raskere lokal inferens uten kvalitetstap

Gemma 4 har passert 60 millioner nedlastinger på få uker, og Google peker selv på lokal-først-utviklere som primær mottaker. MTP-drafterne er små tekstmodeller som deler backbone og KV-cache med målmodellen, så de hopper over prefill-fasen helt og slipper å regne kontekst på nytt.

Mot standard autoregressiv generering, som lager ett token om gangen, predikerer drafteren flere tokens i parallel under tiden målmodellen ellers ville brukt på ett token. Målmodellen verifiserer hele sekvensen i én forward pass og legger til ett token til hvis den aksepterer.

«Den primære Gemma 4-modellen beholder den endelige verifiseringen, så du får identisk frontier-class resonnering og presisjon, bare levert betydelig raskere.» — Googles utviklerblogg

Hvor mye raskere er «opp til 3x» faktisk

Google testet på fire runtimes: LiteRT-LM, MLX, Hugging Face Transformers og vLLM. Tallene de viser fram er ikke uniforme: 26B mixture-of-experts har spesielle routing-utfordringer ved batch size 1 på Apple Silicon, men gir cirka 2,2x speedup når du kjører batch 4-8. Tilsvarende mønster på Nvidia A100 ved økt batch size.

Det er greit å vite før du måler selv: kjør benchmark med din faktiske batch-størrelse, ikke Googles best-case. Du får ikke 3x på et kall om gangen, men kan lande nær det med multipleksing.

Hvordan det kobles til Transformers v5.8.0

Driverne er nå tilgjengelige i Hugging Face Transformers v5.8.0 (sluppet samme dag) som «Gemma 4 Assistant». Det betyr at du ikke trenger en egen runtime for å teste dette. from_pretrained fungerer som vanlig, og spekulativ dekoding kobles på via Transformers’ assistant-modell-API. Apache 2.0-lisens, samme som Gemma 4 selv.

Hva bør du gjøre?

Hvis du allerede kjører Gemma 4 26B eller 31B Dense lokalt: last ned tilhørende drafter fra Hugging Face og koble den på som assistant
Mål tokens/s på din egen oppsetning før og etter. Forskjellen avhenger av batch size, så test også med batch 4-8 hvis du har headroom på VRAM
På E2B/E4B edge-modellene er gevinsten mer om responsivitet og batterilevetid enn rå throughput; vurder hvor i appen din latency faktisk biter