Google DeepMind slipper DiffusionGemma: open-weight modell genererer tekst 4× raskere

Der en vanlig språkmodell jobber som en skrivemaskin, ett token om gangen fra venstre mot høyre, skriver Google DeepMinds nye DiffusionGemma 256 tokens parallelt i hver runde. Modellen ble sluppet under Apache 2.0-lisens og henter teknikken fra diffusjonsmodeller for bilde, nå brukt på tekst. Google oppgir opptil 1000 tokens i sekundet på en NVIDIA H100 og over 700 på en RTX 5090.

Forskjellen ligger i hvor flaskehalsen sitter. Når en autoregressiv modell kjøres lokalt for én bruker, står GPU-en mest og venter på neste «tastetrykk», fordi den ikke kan batche forespørsler slik skytjenester gjør. DiffusionGemma flytter flaskehalsen fra minnebåndbredde til ren regnekraft, og utnytter dermed maskinvaren bedre. Modellen er en Mixture-of-Experts på 26 milliarder parametere som bare aktiverer 3,8 milliarder under inferens, og får plass i 18 GB VRAM kvantisert.

«Fordi den prioriterer hastighet og parallell layout-generering, er DiffusionGemmas samlede kvalitet lavere enn standard Gemma 4» — Google DeepMind

Toveis attention er den praktiske gevinsten for utviklere: hver token ser alle andre i blokken, noe som hjelper på ikke-lineære oppgaver som kode-infilling og in-line redigering. Google er tydelig på at dette er en eksperimentell modell for hastighetskritiske, interaktive arbeidsflyter, ikke for produksjon der kvalitet teller mest.

>_ NØKKELTALL

4× raskere generering enn autoregressiv Gemma 4

1000 tok/s på NVIDIA H100

700 tok/s på NVIDIA RTX 5090

18 GB VRAM kvantisert

Hva bør du gjøre?

Test DiffusionGemma for lokale, interaktive verktøy der responstid betyr mer enn perfekt kvalitet, som kodefullføring og rask iterasjon.

Sjekk VRAM-kravet: du trenger en dedikert GPU med minst 18 GB for kvantisert kjøring.
Behold standard Gemma 4 for produksjonsutdata der kvalitet er viktigst.