Gemma 4 får QAT-kvantisering: E2B-modellen krymper til 1 GB minne

Under 1 GB. Det er minnefotavtrykket Google nå presser Gemma 4 E2B ned til med et nytt mobilformat, ifølge Googles utviklerblogg 7. juni. Sjekkpunktene er trent med Quantization-Aware Training (QAT), som simulerer komprimeringen allerede under treningen i stedet for å kvantisere modellen etterpå.

Forskjellen betyr noe for deg som kjører modeller lokalt. Standard Post-Training Quantization (PTQ) gir ofte et synlig kvalitetsfall når vektene krymper til 4-bit. QAT bygger kvantiseringen inn i treningsløpet, og Google oppgir at resultatet holder høyere kvalitet enn PTQ-baseline ved samme størrelse.

«Ved å simulere kvantisering under treningen minimerer QAT kvalitetstapet når modellen komprimeres.» — Google, utviklerblogg

Slippet dekker det utbredte Q4_0-formatet for alle modellstørrelsene, pluss et eget mobilformat for edge-modellene E2B og E4B. Mobilformatet bruker statiske aktiveringer, kanalvis kvantisering og målrettet 2-bit-komprimering av de token-genererende lagene, mens kjernelagene for resonnering holdes på høyere presisjon. For E2B i ren tekstmodus, uten Per-Layer Embeddings, lander minnebehovet under 1 GB. Slippet kommer få dager etter at Google la til en 12B-modell i Gemma 4-familien.

Vektene ligger klare på Hugging Face. GGUF-filene er rett til llama.cpp, og komprimerte tensorer følger med for vLLM. På desktop kan du laste dem inn i Ollama eller LM Studio direkte.

Hva bør du gjøre?

Last ned Q4_0-vektene fra Hugging Face hvis du allerede kjører Gemma 4. Du får lavere minnebruk uten å bytte modell.

Bruk mobil- eller E2B-formatet hvis du sikter mot telefon eller en maskin med lite minne.
Test QAT-sjekkpunktet mot din egen PTQ-kvantisering før du bytter i produksjon, så ser du om kvalitetsgevinsten holder for ditt bruk.