Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Belitsoft · 7.5., 12:27 · modell

Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten

SYNOPSIS_GENERERT

Google la 6. mai til en åpen «drafter»-modell i Gemma 4 som forutsier flere tokens parallelt og gir 2,5 til 3,1 ganger raskere lokal generering, ifølge målinger på Pixel og Apple M4.

Mens Gemini lever på Googles TPU-pods, bygger Gemma 4 på en helt annen forutsetning: at modellen skal kjøre på utviklerens egen maskin. Den nye Multi-Token Prediction-funksjonen Google la til 6. mai er skreddersydd for det miljøet. En liten «drafter»-modell foreslår flere tokens om gangen, hovedmodellen verifiserer dem parallelt, og kun bekreftede tokens beholdes. Drafteren deler hovedmodellens key-value-cache, så den slipper å bygge konteksten på nytt for hver runde.

Hovedflaskehalsen for lokale LLM-er er ikke beregning, men å hente vekter fra VRAM for hvert eneste token. MTP angriper akkurat det punktet ved å gjøre flere tokens om til én verifikasjonsrunde.

>_ NØKKELTALL
2,8× raskere E2B-modell på Pixel-telefon
3,1× raskere E4B-konfigurasjon på samme Pixel
2,5× raskere på Apple M4 med 31B-modell

Drafterne er sluppet under Apache 2.0 og er allerede integrert i MLX, vLLM, SGLang og Ollama. Du kan altså oppdatere Ollama, hente siste Gemma 4-vekter, og få fartsøkningen uten å skrive kode. Google oppgir at Gemma 4 er lastet ned over 60 millioner ganger siden lanseringen 2. april.

Hva bør du gjøre?

  1. Oppdater Ollama og last ned siste Gemma 4-variant. Drafteren plugger inn automatisk hvis runtime-versjonen din støtter MTP.
  2. Mål faktisk hastighet på din egen maskin. Tallene fra Google er fra Pixel og M4, ikke fra ditt RTX-kort eller din mini-PC.
  3. Vurder om E4B-varianten kan erstatte en større skytjeneste. Hvis 3,1× fart løfter den over terskelen for sanntidsbruk i ditt prosjekt, sparer du både latens og API-kostnader.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN