16 GB RAM er alt Google DeepMinds nye Gemma 4 12B trenger for å kjøre lokalt, bilde og lyd inkludert. Modellen ble sluppet 9. juni med 12 milliarder parametere og et arkitektonisk veddemål: den dropper de separate vision- og audio-koderne som multimodale modeller vanligvis bruker, og behandler rådata direkte i språkmodellens ryggrad.
Konkret erstattes vision-koderen med én matrisemultiplikasjon pluss posisjons-embedding og normalisering, mens rå lyd projiseres inn i samme dimensjonsrom som tekst-tokens helt uten koder. Google DeepMind hevder dette kutter både latens og minnebruk, og at 12B-modellen nærmer seg ytelsen til selskapets større 26B Mixture-of-Experts-modell på under halve minnefotavtrykket. Konkrete benchmark-tall ble ikke oppgitt, så påstanden gjenstår å verifisere uavhengig.
Det praktiske poenget for deg som bygger lokalt: Gemma 4 12B er den første mellomstore modellen i familien med native lyd-input ved siden av tekst og bilde. Den er allerede tilgjengelig via Hugging Face og Kaggle, og kjører i LM Studio, Ollama, llama.cpp, MLX, vLLM og SGLang. Unsloth støtter fine-tuning fra start, og Gemma-familien har nå passert 150 millioner nedlastinger.
En encoder-fri multimodal modell betyr færre bevegelige deler: ett sett vekter håndterer tekst, bilde og lyd, i stedet for en pipeline av spesialiserte komponenter du må laste og synkronisere. Avveiingen er at ytelsen mot encoder-baserte alternativer ennå ikke er bekreftet av uavhengige tester.
Hva bør du gjøre?
- Har du en maskin med 16 GB minne: last ned GGUF-versjonen via Ollama eller LM Studio og test multimodal inferens lokalt.
- Bygger du agenter med lyd eller bilde: vurder Gemma 4 12B som lokalt alternativ før du betaler for sky-API-er.
- Trenger du mindre minne: se etter de quantization-aware (QAT) GGUF-variantene DeepMind slapp parallelt for hele Gemma 4-serien.