7,4 tokens per sekund mot 18,1. Det er Qwen3.6 27B i Q8_0 på en Framework Desktop med AMD Strix Halo, før og etter Multi-Token Prediction ble slått på, ifølge en LocalLLaMA-tråd referert av Startup Fortune. Et dobbelt RTX 3090-oppsett i layer-split hoppet fra 25,7 til 55,9 t/s i samme kvantisering, og en DataCamp-tutorial fra 14. mai målte 38 til 65 t/s på en enkelt RTX 3090. Tre uavhengige rigger, tre ulike speedups, samme retning.
llama.cpp merget PR #22673 16. mai, som bringer MTP-spekulativ dekoding inn i hovedgrenen. Mekanismen er enkel nok: modeller med MTP-støtte tegner mer enn én token av gangen og bekrefter riktig sti gjennom spekulativ dekoding. I praksis betyr det at hvert genereringssteg gjør mer arbeid. Det er ikke en universell hastighetsknapp, men en endring i økonomien til dense-modeller på forbruker-GPU.
«Resultatene kan være byte-identiske med baseline-dekoding ved samme seed og temperatur når konfigurasjonen er riktig, men team som bruker MTP i produksjon bør verifisere sine egne prompt.» — fellesskapsrapport sitert i Startup Fortune
Gevinstene er klart størst på dense-modeller. Den samme benchmark-tråden viste Qwen3.6 35B-A3B med mye mindre forbedring, fordi bare en andel av MoE-modellen er aktiv per token. Spekulativ dekoding lønner seg når baseline-genereringen er dyr nok til at draftingen betaler tilbake. For dense 27B-vekter på en hjemmemaskin er det nettopp tilfellet.
For en norsk bygger som har vurdert om Qwen3.6 27B er rask nok som daily driver i koding eller agent-workflows, flytter dette baren. En modell som ga 38 t/s før er nå nær 60 t/s. Den forskjellen endrer atferd: flere oppfølgingsspørsmål, færre cloud-anrop, mer privacy-vennlige eksperimenter. Forutsetningene er konkrete, ikke magi.
Hva bør du gjøre?
- Bygg llama.cpp fra main eller vent på en release etter 16. mai. PR #22673 er ikke i eldre tags.
- Hent MTP-ready GGUF-vekter fra Hugging Face. Standard Qwen3.6-vekter har ikke draft-hodene som MTP trenger. Modellkortet sier om filen støtter MTP eller ikke.
- Test selv med samme seed og temperatur. Spekulativ dekoding skal være tapsfri når den er riktig konfigurert, men prompt processing kan ta en hit i noen oppsett. Verifiser output-kvaliteten på dine egne prompter før produksjon.
- Tune draft-størrelsen til GPU og kvantisering. En verdi som passer Q8_0 på 3090 er ikke nødvendigvis riktig på Strix Halo eller Q4_K_M.
Bakgrunn
Multi-Token Prediction er ikke et nytt forskningsfunn. Meta beskrev varianten i et 2024-paper for å akselerere trening og inferens, og Qwen-laget la draft-hoder inn i 3.6-utgivelsene fra start. Det nye er at llama.cpp støtter mekanismen i hovedgrenen, slik at GGUF-økosystemet kan begynne å publisere vekter som faktisk bruker den. Tidligere måtte du kjøre vLLM eller en spesialgren for å få samme effekt.