60 til 85 prosent raskere per bruker. Det er gevinsten DeepSeek og forskere ved Peking-universitetet rapporterer for DSpark, et open source-rammeverk for spekulativ dekoding som ble sluppet 27. juni, ifølge MarkTechPost. DSpark er en serveringsoptimalisering, ikke en ny modell: sjekkpunktene DeepSeek-V4-Pro-DSpark og V4-Flash-DSpark gjenbruker de eksisterende V4-vektene med en draftmodul påkoblet.
Spekulativ dekoding deler genereringen i to roller. En liten draftmodell foreslår en blokk med tokens, og den fulle målmodellen verifiserer hele blokken i én passering. Fordi regelen bevarer målmodellens fordeling eksakt, er det ingen kvalitetstap. DSpark beholder den garantien og endrer i stedet hvordan tokens foreslås og hvor mange som verifiseres.
Trikset er en todelt drafter: en tung parallell ryggrad lager grunnlogits for hver posisjon, og et lett sekvensielt Markov-hode legger til en prefiks-avhengig vekting før hvert token velges. Et eget konfidens-hode anslår sjansen for at et token overlever verifisering, og en maskinvarebevisst planlegger setter verifiseringslengden per forespørsel: flere tokens når GPU-ene er ledige, færre når de er travle.
Den leverte konfigurasjonen er DSpark-5, en fem-tokens draftblokk med Markov-hodet. Strukturerte arbeidslaster tjener mest: i kodegenerering er aksepten naturlig høy, så planleggeren kan verifisere lange prefikser med lite sløsing, og kodeagenter strømmer ut svar raskere. Sammen med rammeverket åpnet teamet DeepSpec, en MIT-lisensiert kodebase for å trene og evaluere egne draftere.
Hva bør du gjøre?
- Hent sjekkpunktene DeepSeek-V4-Flash-DSpark eller V4-Pro-DSpark fra Hugging Face hvis du allerede kjører V4, siden draftmodulen kobles på eksisterende vekter uten retrening.
- Bruk DeepSpec-koden til å trene egne draftere for andre mål som Qwen3 eller Gemma4, men regn med tung GPU-bruk under trening.
- Prioriter DSpark der du serverer mange samtidige brukere, der den maskinvarebevisste planleggeren gir størst utslag.