Gemma 4 lander med Apache 2.0 og slår 400B-modeller på 31B parametre

Google DeepMind lanserte Gemma 4 i begynnelsen av april og bytter samtidig fra egen lisens til Apache 2.0, som lar deg finjustere og distribuere kommersielt uten å spørre. Flaggskipet er en 31B Dense-modell med 256K kontekstvindu som kjører ukvantisert på én H100 og rangerer som tredje beste åpne modell på Arena AI-leaderboardet.

Suiten består av fire varianter for ulike kjøremiljøer. 26B A4B MoE har 25,2 milliarder totalt, men aktiverer bare 3,8 milliarder per token, så den genererer like raskt som en 4B-modell. E4B og E2B er optimalisert for mobil og edge med Per-Layer Embeddings, der den minste komprimerer effektive parametre ned til 2,3 milliarder og kan kjøre på under 1,5 GB minne. Alle modellene støtter funksjonskall, strukturert JSON-output og bilde- og videoinput.

Sprangene fra forrige generasjon gjør Gemma 4 interessant for utviklere. På AIME 2026 hopper modellen fra 20,8 til 89,2 prosent. Codeforces ELO går fra 110 til 2150, og LiveCodeBench-poengsummen øker fra 29,1 til 80,0 prosent. På graduate-level vitenskapsspørsmål (GPQA Diamond) dobler den seg fra 42,4 til 84,3 prosent.

«Byte for byte, the most capable open models» — Google DeepMind, lanseringsannonsering

For deg som bygger med lokale modeller endrer dette regnestykket. Apache 2.0 betyr at du kan ta vektene inn i et kommersielt produkt uten advokatdrøfting, og 31B Dense er liten nok til å rulle på en enkelt H100 eller på dobbel RTX 3090 med kvantisering. Function calling og den nye Agent Development Kit (ADK) gjør at modellen kan operere som verktøybruker direkte, ikke bare som chat-backend.

>_ NØKKELTALL

89,2 %: AIME 2026-mattepoeng (opp fra 20,8 %)

80,0 %: LiveCodeBench (opp fra 29,1 %)

84,3 %: GPQA Diamond (opp fra 42,4 %)

256K: kontekstvindu, kjører på én H100 ukvantisert

Hva bør du gjøre?

Test 26B MoE først hvis du allerede har en 24 GB GPU. Den aktiverer kun 3,8B per token og gir nesten samme kvalitet som flaggskipet til en brøkdel av minnebudsjettet.
Bruk E2B for edge-eksperimenter. Under 1,5 GB minne åpner for å pakke en kapabel modell direkte inn i en mobil-app eller en Raspberry Pi-prototype.
Bytt over funksjonskall til ADK hvis du allerede bruker Gemini-stilen. Agent Development Kit er åpen, så du slipper å låse deg til Google Cloud for orkestrering.