Google DeepMind ga ut Gemma 4 under Apache 2.0, edge-modellene kjører agenter offline på under 1,5 GB minne

Google DeepMind ga forrige måned ut Gemma 4 under Apache 2.0-lisens, ifølge Data Phoenix. Familien kommer i fire varianter: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts og 31B Dense. 31B-modellen rangerte som nummer 3 globalt på Arena AIs tekst-leaderboard ved lansering, mens 26B sikret seg en sjetteplass.

Det praktiske skiftet ligger i edge-modellene. E2B og E4B kjører helt offline på mobil og IoT, og driver autonome flerstegs-agentarbeidsflyter direkte på enheten via Googles AI Edge Gallery og rammeverket LiteRT-LM. Modellene støtter constrained decoding for strukturerte utdata og dynamisk kontekstbehandling på tvers av CPU og GPU.

>_ NØKKELTALL

1,5 GB: minimumskrav for E2B på enkelte enheter

3 700: prefill-tokens per sekund på Qualcomm Dragonwing

256K: kontekstvindu for alle varianter

140+: språk i pretraining-settet

LiteRT-LM behandler 4 000 input-tokens på under tre sekunder med flere ferdigheter aktive. De større modellene er optimalisert for tilgjengelig hardware: ukvantiserte vekter for 31B passer på én enkelt 80 GB NVIDIA H100. Alle variantene er multimodale med støtte for syn og lyd, og bygger på samme teknologi som Gemini 3.

Apache 2.0 er det viktige juridiske valget. Lisensen tillater kommersiell bruk, modifisering og videredistribusjon uten copyleft-krav, i motsetning til Llama-lisensen som har bruksbegrensninger. Det åpner for at norske selskaper kan finetune og deploye Gemma 4 i produkter uten å forhandle separate avtaler med Google.

Gemma har samlet over 400 millioner nedlastinger og 100 000 varianter siden første generasjon, ifølge Googles tall. 26B-modellen slår modeller som er 20 ganger større, hevder DeepMind.

Hva bør du gjøre?

Test E2B lokalt på en mobil eller Raspberry Pi før du commiter til en arkitektur. 1,5 GB-grensen gjelder noen enheter, ikke alle, og constrained decoding er ofte forskjellen mellom prototype og produkt.
Hvis du bygger agenter som trenger persondata-isolasjon (helse, finans, juridisk): edge-deploy med E4B kutter eksterne API-kall helt. Det er en personvern-arkitektur, ikke bare en ytelsesoptimalisering.
Vurder 26B MoE før du strekker etter 31B Dense. Hvis Arena-rangeringene holder seg i din use case, sparer du betydelig inferenskostnad.