31 milliarder parametere i en modell som kjører på én enkelt 80 GB H100-GPU. Det er Googles nye Gemma 4, annonsert 3. april. Modellserien bygger på Gemini 3-teknologien og lanseres i fire varianter: E2B (2,3B), E4B (4,5B), 26B MoE og 31B dense.
31B-utgaven tar tredjeplassen globalt blant åpne modeller på Arena AI-topplisten, mens 26B MoE-varianten ligger på sjette. Begge de store modellene støtter multimodal inndata med bilder og video, noe som gjør dem aktuelle for agentarbeidsflyter som krever visuell forståelse.
«Logisk resonnering og funksjonskalling er robust nok til å drive komplekse autonome agenter» — xix.ai
For utviklere som jobber med lokale modeller er de minste variantene mest interessante. E2B og E4B støtter stemmeinput nativt, har 128K kontekstvindu, og kjører med lav latens på enheter som Raspberry Pi og smarttelefoner takket være PLE embedding-teknologi.
Den kvantiserte 31B-versjonen er kompatibel med vanlige forbruker-GPUer, noe som senker terskelen for team som vil eksperimentere med store lokale modeller uten skyinfrastruktur. Med Apache 2.0-lisens er hele serien fritt tilgjengelig for kommersielt bruk.