DiffusionGemma 26B: Google DeepMind erstatter token-generering med parallell tekstdiffusjon for lokal kjøring

Der vanlige språkmodeller skriver ett token om gangen, fyller DiffusionGemma et helt lerret på 256 token samtidig. Google DeepMind slapp modellen denne uka som et eksperimentelt open-weight-prosjekt bygget på Gemma 4-ryggraden, og den bruker diskret tekstdiffusjon for å omgå flaskehalsen som vanligvis bremser lokal kjøring: minnebåndbredde.

Arkitekturen er en Mixture-of-Experts på 26 milliarder parametere med 3,8 milliarder aktive under kjøring. I prefill-fasen bruker modellen vanlig kausal attention for å lese prompten, men når genereringen starter, bytter den til toveis attention over hele lerretet. Det lar hvert token i blokken se alle de andre samtidig, og åpner for selvkorreksjon: modellen kan rette logiske feil på tvers av hele tekstblokken under avstøyningen.

Gevinsten er gjennomstrømning. Kvantisert til NVFP4 eller GGUF får 26B-modellen plass i 18 til 24 GB VRAM, altså innenfor rekkevidde for en RTX 4090 eller 5090, og DeepMind oppgir opptil fire ganger høyere gjennomstrømning enn en autoregressiv modell av samme størrelse.

Prisen betaler du på første token. Fordi modellen leverer hele 256-token-blokker om gangen i stedet for å strømme ord for ord, blir første-token-latensen høyere. DeepMind kaller det «Polaroid-effekten»: du venter lenger på at bildet skal fremkalles, men når det kommer, kommer alt på en gang. Tidlige benchmarks viser også en liten nedgang i resonnement sammenlignet med standard Gemma 4.

Lisensen er Apache 2.0, med dag-null-støtte for Hugging Face Transformers, MLX, NVIDIA NeMo og vLLM gjennom en ny ModelState-abstraksjon. Støtte for llama.cpp er under arbeid.

Hva bør du gjøre?

Bygger du noe som krever sanntids-strømming av tekst, dropp denne modellen: blokk-latensen gjør den uegnet for chat-grensesnitt.

Kjører du offline batch-jobber, bakgrunnsagenter eller dokumentsammendrag lokalt, mål gjennomstrømningen mot en autoregressiv modell på samme maskinvare.
Har du en RTX 4090 eller 5090, hent NVFP4- eller GGUF-kvantiseringen og test første-token-latensen på din egen arbeidsmengde før du baker den inn.