DFlash knekker spekulativ dekoding: 15x raskere inferens på Blackwell GPU-er

4,86 ganger. Det er gjennomsnittlig tapsfri hastighetsøkning DFlash leverte på Qwen3-8B i enkeltstrøm, mot 1,76x for dagens beste metode EAGLE-3 ved samme trestørrelse, ifølge TechTimes' gjennomgang av arbeidet fra UC San Diegos z-lab. På MATH-500 toppet den på 6,08x.

Spekulativ dekoding skulle løse at en stor modell genererer ett token om gangen og lar mesteparten av GPU-en stå tom: en liten utkast-modell gjetter en serie tokens, og målmodellen verifiserer alle parallelt. Haken har vært at utkast-modellen selv jobber sekvensielt, noe som har låst reelle gevinster til 2-3x. DFlash erstatter den løkken med en blokk-diffusjonsmodell som foreslår en hel token-blokk i ett forward-pass. Latensen er nær flat uansett blokkstørrelse, og det er den økonomiske innsikten: et dypere utkast-nettverk (fem lag, åtte for Qwen3-Coder) koster ikke mer i veggklokke, men gir lengre aksepterte serier.

Det andre grepet er KV-injeksjon. DFlash henter skjulte tilstander fra flere lag i målmodellen og injiserer dem i Key- og Value-projeksjonene i hvert lag av utkast-nettverket, ikke bare i input slik EAGLE-3 gjør. Dermed holder signalet om hva som kommer seg gjennom hele dybden på utkast-modellen.

De to store tallene måler ulike ting, og det er verdt å holde dem fra hverandre. Enkeltstrøm-tallet (4,86x) er latens for én bruker. 15x-tallet er batch-gjennomstrømning: på gpt-oss-120b over åtte Blackwell-GPU-er betjente DFlash over 15 ganger så mange samtidige brukere ved 500-600 tokens per sekund per bruker, rundt 1,5x mer enn EAGLE-3 på samme punkt.

>_ NØKKELTALL

4,86x: snitt enkeltstrøm-fart på Qwen3-8B, mot 1,76x for EAGLE-3

6,08x: topp på MATH-500

15x: flere samtidige brukere på Blackwell ved fast responstid

For deg som kjører lokale modeller eller egne agenter er det praktiske at byttet er udramatisk: DFlash har native integrasjon i vLLM, SGLang og TensorRT-LLM, og leveres med 20 ferdige checkpoints på Hugging Face for Qwen, LLaMA, Gemma, Kimi K2.6 og gpt-oss. På vLLM er det én konfig-linje å bytte EAGLE-3-referansen mot en DFlash-checkpoint. Gevinsten er størst for latens-følsomme arbeidslaster og krymper når batch-størrelsen presser målmodellen mot metning.