DeepSeek slipper DSpark: opptil 85 prosent raskere inferens under strammere eksportkontroll

DeepSeek har publisert DSpark, et rammeverk som ifølge The Decoder øker svarhastigheten per bruker med 60 til 85 prosent for selskapets KI-modeller. Tallene er DeepSeeks egne målinger, ikke et uavhengig benchmark, så «opptil 85 prosent» er selskapets tak, ikke en garanti du kan regne med i din egen oppsett.

Mekanismen er speculative decoding: en liten, lett modell foreslår svarkandidater som den store modellen så verifiserer i batcher, i stedet for å generere ett token av gangen. DSpark genererer også små ordgrupper fremfor enkelttokens, og et konfidensbasert system justerer hvor dypt hver kandidat verifiseres avhengig av hvor mye compute som er tilgjengelig. Poenget er høyere GPU-utnyttelse og mindre bortkastet prosessering på avviste forslag.

For deg som kjører modeller lokalt er det verdt å merke seg at DeepSeek testet DSpark på åpne modeller fra Google DeepMind (Gemma) og Alibaba (Qwen), noe som tyder på at metoden ikke er låst til DeepSeeks egne vekter. Rammeverket og modellen DeepSeek-V4-Pro, utviklet sammen med Peking University, ligger på Hugging Face og GitHub under MIT-lisens.

«DSpark enables performance tiers that were previously unattainable, shifting the Pareto frontier of our serving system.» — DeepSeek, ifølge The Decoder

Den geopolitiske vinkelen er at raskere inferens senker brikkebehovet per forespørsel og kutter infrastrukturkostnader. Det gir Kina, og potensielt EU, mer KI-ytelse ut av færre høyytelses-brikker under amerikanske eksportrestriksjoner. The Decoder peker samtidig på Jevons-paradokset: frigjort compute blir sannsynligvis spist opp umiddelbart av flere forespørsler og lengre kontekster, så samlet brikkeetterspørsel kan holde seg flat eller vokse.

For norske byggere er det praktiske signalet at speculative decoding under en permissiv lisens nå kommer med publisert kode og et paper. Om de 60 til 85 prosentene holder på din maskinvare avhenger av modellstørrelse og hvor godt draft-modellen matcher målmodellen.