Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten

Mens Gemini lever på Googles TPU-pods, bygger Gemma 4 på en helt annen forutsetning: at modellen skal kjøre på utviklerens egen maskin. Den nye Multi-Token Prediction-funksjonen Google la til 6. mai er skreddersydd for det miljøet. En liten «drafter»-modell foreslår flere tokens om gangen, hovedmodellen verifiserer dem parallelt, og kun bekreftede tokens beholdes. Drafteren deler hovedmodellens key-value-cache, så den slipper å bygge konteksten på nytt for hver runde.

Hovedflaskehalsen for lokale LLM-er er ikke beregning, men å hente vekter fra VRAM for hvert eneste token. MTP angriper akkurat det punktet ved å gjøre flere tokens om til én verifikasjonsrunde.

>_ NØKKELTALL

2,8× raskere E2B-modell på Pixel-telefon

3,1× raskere E4B-konfigurasjon på samme Pixel

2,5× raskere på Apple M4 med 31B-modell

Drafterne er sluppet under Apache 2.0 og er allerede integrert i MLX, vLLM, SGLang og Ollama. Du kan altså oppdatere Ollama, hente siste Gemma 4-vekter, og få fartsøkningen uten å skrive kode. Google oppgir at Gemma 4 er lastet ned over 60 millioner ganger siden lanseringen 2. april.

Hva bør du gjøre?

Oppdater Ollama og last ned siste Gemma 4-variant. Drafteren plugger inn automatisk hvis runtime-versjonen din støtter MTP.
Mål faktisk hastighet på din egen maskin. Tallene fra Google er fra Pixel og M4, ikke fra ditt RTX-kort eller din mini-PC.
Vurder om E4B-varianten kan erstatte en større skytjeneste. Hvis 3,1× fart løfter den over terskelen for sanntidsbruk i ditt prosjekt, sparer du både latens og API-kostnader.