Mens Gemini lever på Googles TPU-pods, bygger Gemma 4 på en helt annen forutsetning: at modellen skal kjøre på utviklerens egen maskin. Den nye Multi-Token Prediction-funksjonen Google la til 6. mai er skreddersydd for det miljøet. En liten «drafter»-modell foreslår flere tokens om gangen, hovedmodellen verifiserer dem parallelt, og kun bekreftede tokens beholdes. Drafteren deler hovedmodellens key-value-cache, så den slipper å bygge konteksten på nytt for hver runde.
Hovedflaskehalsen for lokale LLM-er er ikke beregning, men å hente vekter fra VRAM for hvert eneste token. MTP angriper akkurat det punktet ved å gjøre flere tokens om til én verifikasjonsrunde.
Drafterne er sluppet under Apache 2.0 og er allerede integrert i MLX, vLLM, SGLang og Ollama. Du kan altså oppdatere Ollama, hente siste Gemma 4-vekter, og få fartsøkningen uten å skrive kode. Google oppgir at Gemma 4 er lastet ned over 60 millioner ganger siden lanseringen 2. april.
Hva bør du gjøre?
- Oppdater Ollama og last ned siste Gemma 4-variant. Drafteren plugger inn automatisk hvis runtime-versjonen din støtter MTP.
- Mål faktisk hastighet på din egen maskin. Tallene fra Google er fra Pixel og M4, ikke fra ditt RTX-kort eller din mini-PC.
- Vurder om E4B-varianten kan erstatte en større skytjeneste. Hvis 3,1× fart løfter den over terskelen for sanntidsbruk i ditt prosjekt, sparer du både latens og API-kostnader.