Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Google DeepMind · 1D SIDEN · modell

Google DeepMind slipper DiffusionGemma: open-weight modell genererer tekst 4× raskere

SYNOPSIS_GENERERT

Google DeepMind slipper DiffusionGemma under Apache 2.0: en diffusjonsmodell som genererer tekst opptil 4× raskere enn vanlige språkmodeller, mot lavere kvalitet.

Der en vanlig språkmodell jobber som en skrivemaskin, ett token om gangen fra venstre mot høyre, skriver Google DeepMinds nye DiffusionGemma 256 tokens parallelt i hver runde. Modellen ble sluppet under Apache 2.0-lisens og henter teknikken fra diffusjonsmodeller for bilde, nå brukt på tekst. Google oppgir opptil 1000 tokens i sekundet på en NVIDIA H100 og over 700 på en RTX 5090.

Forskjellen ligger i hvor flaskehalsen sitter. Når en autoregressiv modell kjøres lokalt for én bruker, står GPU-en mest og venter på neste «tastetrykk», fordi den ikke kan batche forespørsler slik skytjenester gjør. DiffusionGemma flytter flaskehalsen fra minnebåndbredde til ren regnekraft, og utnytter dermed maskinvaren bedre. Modellen er en Mixture-of-Experts på 26 milliarder parametere som bare aktiverer 3,8 milliarder under inferens, og får plass i 18 GB VRAM kvantisert.

«Fordi den prioriterer hastighet og parallell layout-generering, er DiffusionGemmas samlede kvalitet lavere enn standard Gemma 4» — Google DeepMind

Toveis attention er den praktiske gevinsten for utviklere: hver token ser alle andre i blokken, noe som hjelper på ikke-lineære oppgaver som kode-infilling og in-line redigering. Google er tydelig på at dette er en eksperimentell modell for hastighetskritiske, interaktive arbeidsflyter, ikke for produksjon der kvalitet teller mest.

>_ NØKKELTALL
raskere generering enn autoregressiv Gemma 4
1000 tok/s på NVIDIA H100
700 tok/s på NVIDIA RTX 5090
18 GB VRAM kvantisert

Hva bør du gjøre?

  1. Test DiffusionGemma for lokale, interaktive verktøy der responstid betyr mer enn perfekt kvalitet, som kodefullføring og rask iterasjon.
  1. Sjekk VRAM-kravet: du trenger en dedikert GPU med minst 18 GB for kvantisert kjøring.
  2. Behold standard Gemma 4 for produksjonsutdata der kvalitet er viktigst.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN