2 til 31 milliarder parametere, fire modeller, én felles ting: alt kjører lokalt. Google DeepMind slipper Gemma 4-familien med Apache 2.0-lisens, et skifte fra den egne Gemma-lisensen som begrenset kommersiell bruk.
Den største varianten, 31B Dense, plasserer seg som nummer tre på Arena-listen over åpne modeller. 26B Mixture of Experts-versjonen aktiverer bare 3,8 milliarder av sine 26 milliarder parametere under inferens, noe som gir vesentlig høyere tokens per sekund enn sammenlignbare modeller. Begge kjører ukvantisert på én 80 GB H100.
For mobilutviklere er E2B og E4B-variantene mest interessante. De er optimalisert sammen med Qualcomm og MediaTek for enheter som Pixel-telefoner, Raspberry Pi og Jetson Nano. Google lover «near-zero latency» og lavere strømforbruk enn Gemma 3.