Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Startup Fortune · 19.5., 13:24 · forskning

llama.cpp dobler Qwen3.6 27B med Multi-Token Prediction: 7,4 til 18,1 t/s på Strix Halo

SYNOPSIS_GENERERT

llama.cpp slo sammen Multi-Token Prediction 16. mai. På AMD Strix Halo gikk Qwen3.6 27B fra 7,4 til 18,1 tokens per sekund.

7,4 tokens per sekund mot 18,1. Det er Qwen3.6 27B i Q8_0 på en Framework Desktop med AMD Strix Halo, før og etter Multi-Token Prediction ble slått på, ifølge en LocalLLaMA-tråd referert av Startup Fortune. Et dobbelt RTX 3090-oppsett i layer-split hoppet fra 25,7 til 55,9 t/s i samme kvantisering, og en DataCamp-tutorial fra 14. mai målte 38 til 65 t/s på en enkelt RTX 3090. Tre uavhengige rigger, tre ulike speedups, samme retning.

llama.cpp merget PR #22673 16. mai, som bringer MTP-spekulativ dekoding inn i hovedgrenen. Mekanismen er enkel nok: modeller med MTP-støtte tegner mer enn én token av gangen og bekrefter riktig sti gjennom spekulativ dekoding. I praksis betyr det at hvert genereringssteg gjør mer arbeid. Det er ikke en universell hastighetsknapp, men en endring i økonomien til dense-modeller på forbruker-GPU.

«Resultatene kan være byte-identiske med baseline-dekoding ved samme seed og temperatur når konfigurasjonen er riktig, men team som bruker MTP i produksjon bør verifisere sine egne prompt.» — fellesskapsrapport sitert i Startup Fortune

Gevinstene er klart størst på dense-modeller. Den samme benchmark-tråden viste Qwen3.6 35B-A3B med mye mindre forbedring, fordi bare en andel av MoE-modellen er aktiv per token. Spekulativ dekoding lønner seg når baseline-genereringen er dyr nok til at draftingen betaler tilbake. For dense 27B-vekter på en hjemmemaskin er det nettopp tilfellet.

For en norsk bygger som har vurdert om Qwen3.6 27B er rask nok som daily driver i koding eller agent-workflows, flytter dette baren. En modell som ga 38 t/s før er nå nær 60 t/s. Den forskjellen endrer atferd: flere oppfølgingsspørsmål, færre cloud-anrop, mer privacy-vennlige eksperimenter. Forutsetningene er konkrete, ikke magi.

Hva bør du gjøre?

  1. Bygg llama.cpp fra main eller vent på en release etter 16. mai. PR #22673 er ikke i eldre tags.
  2. Hent MTP-ready GGUF-vekter fra Hugging Face. Standard Qwen3.6-vekter har ikke draft-hodene som MTP trenger. Modellkortet sier om filen støtter MTP eller ikke.
  3. Test selv med samme seed og temperatur. Spekulativ dekoding skal være tapsfri når den er riktig konfigurert, men prompt processing kan ta en hit i noen oppsett. Verifiser output-kvaliteten på dine egne prompter før produksjon.
  4. Tune draft-størrelsen til GPU og kvantisering. En verdi som passer Q8_0 på 3090 er ikke nødvendigvis riktig på Strix Halo eller Q4_K_M.

Bakgrunn

Multi-Token Prediction er ikke et nytt forskningsfunn. Meta beskrev varianten i et 2024-paper for å akselerere trening og inferens, og Qwen-laget la draft-hoder inn i 3.6-utgivelsene fra start. Det nye er at llama.cpp støtter mekanismen i hovedgrenen, slik at GGUF-økosystemet kan begynne å publisere vekter som faktisk bruker den. Tidligere måtte du kjøre vLLM eller en spesialgren for å få samme effekt.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN