Under 1 GB. Det er minnefotavtrykket Google nå presser Gemma 4 E2B ned til med et nytt mobilformat, ifølge Googles utviklerblogg 7. juni. Sjekkpunktene er trent med Quantization-Aware Training (QAT), som simulerer komprimeringen allerede under treningen i stedet for å kvantisere modellen etterpå.
Forskjellen betyr noe for deg som kjører modeller lokalt. Standard Post-Training Quantization (PTQ) gir ofte et synlig kvalitetsfall når vektene krymper til 4-bit. QAT bygger kvantiseringen inn i treningsløpet, og Google oppgir at resultatet holder høyere kvalitet enn PTQ-baseline ved samme størrelse.
«Ved å simulere kvantisering under treningen minimerer QAT kvalitetstapet når modellen komprimeres.» — Google, utviklerblogg
Slippet dekker det utbredte Q4_0-formatet for alle modellstørrelsene, pluss et eget mobilformat for edge-modellene E2B og E4B. Mobilformatet bruker statiske aktiveringer, kanalvis kvantisering og målrettet 2-bit-komprimering av de token-genererende lagene, mens kjernelagene for resonnering holdes på høyere presisjon. For E2B i ren tekstmodus, uten Per-Layer Embeddings, lander minnebehovet under 1 GB. Slippet kommer få dager etter at Google la til en 12B-modell i Gemma 4-familien.
Vektene ligger klare på Hugging Face. GGUF-filene er rett til llama.cpp, og komprimerte tensorer følger med for vLLM. På desktop kan du laste dem inn i Ollama eller LM Studio direkte.
Hva bør du gjøre?
- Last ned Q4_0-vektene fra Hugging Face hvis du allerede kjører Gemma 4. Du får lavere minnebruk uten å bytte modell.
- Bruk mobil- eller E2B-formatet hvis du sikter mot telefon eller en maskin med lite minne.
- Test QAT-sjekkpunktet mot din egen PTQ-kvantisering før du bytter i produksjon, så ser du om kvalitetsgevinsten holder for ditt bruk.