Der en vanlig språkmodell jobber som en skrivemaskin, ett token om gangen fra venstre mot høyre, skriver Google DeepMinds nye DiffusionGemma 256 tokens parallelt i hver runde. Modellen ble sluppet under Apache 2.0-lisens og henter teknikken fra diffusjonsmodeller for bilde, nå brukt på tekst. Google oppgir opptil 1000 tokens i sekundet på en NVIDIA H100 og over 700 på en RTX 5090.
Forskjellen ligger i hvor flaskehalsen sitter. Når en autoregressiv modell kjøres lokalt for én bruker, står GPU-en mest og venter på neste «tastetrykk», fordi den ikke kan batche forespørsler slik skytjenester gjør. DiffusionGemma flytter flaskehalsen fra minnebåndbredde til ren regnekraft, og utnytter dermed maskinvaren bedre. Modellen er en Mixture-of-Experts på 26 milliarder parametere som bare aktiverer 3,8 milliarder under inferens, og får plass i 18 GB VRAM kvantisert.
«Fordi den prioriterer hastighet og parallell layout-generering, er DiffusionGemmas samlede kvalitet lavere enn standard Gemma 4» — Google DeepMind
Toveis attention er den praktiske gevinsten for utviklere: hver token ser alle andre i blokken, noe som hjelper på ikke-lineære oppgaver som kode-infilling og in-line redigering. Google er tydelig på at dette er en eksperimentell modell for hastighetskritiske, interaktive arbeidsflyter, ikke for produksjon der kvalitet teller mest.
Hva bør du gjøre?
- Test DiffusionGemma for lokale, interaktive verktøy der responstid betyr mer enn perfekt kvalitet, som kodefullføring og rask iterasjon.
- Sjekk VRAM-kravet: du trenger en dedikert GPU med minst 18 GB for kvantisert kjøring.
- Behold standard Gemma 4 for produksjonsutdata der kvalitet er viktigst.