Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Startup Fortune · 20.4., 00:09 · verktøy

llama.cpp fletter inn spekulativ sjekkpunkting: 40 prosent mindre VRAM, 20 prosent flere tokens

SYNOPSIS_GENERERT

Georgi Gerganov flettet 18. april inn spekulativ sjekkpunkting i llama.cpp. Benchmarks viser opptil 40 prosent mindre VRAM og 15-20 prosent flere tokens per sekund på 70B-modeller.

Georgi Gerganov, opprinnelig forfatter av llama.cpp, flettet 18. april inn det mange i miljøet mener er den mest betydningsfulle ytelsesoppdateringen på flere år, skriver Startup Fortune. Teknikken får navnet «speculative checkpointing» og omskriver hvordan inferens-motoren håndterer minne-tilstand underveis i generering.

Problemet den løser er velkjent for alle som kjører store modeller lokalt. Standard LLM-inferens krever at hele KV-cachen synkroniseres og tas backup av hver gang spekulativ dekoding trenger en tilbakerulling. På hardware med begrenset minnebåndbredde (Apple M-brikker, forbruker-RTX-kort) bygger den overheaden seg opp raskt og setter et tak på hvor langt du kan strekke kontekstvinduet før minnet går tomt.

Spekulativ sjekkpunkting omgår dette ved å holde en sparsom, lettvekts snapshot av delta-endringer i de spekulative fasene, i stedet for å flushe hele cachen hver gang. Benchmarks fra merge-diskusjonen viser opptil 40 prosent reduksjon i VRAM under batched operasjoner, og 15 til 20 prosent forbedring i tokens per sekund på båndbredde-begrenset forbrukerhardware.

>_ NØKKELTALL
40 %: maksimal VRAM-reduksjon under batched operasjoner
15–20 %: forbedring i tokens per sekund på forbrukerhardware
18. april 2026: dato for merge av Gerganovs pull request

For 70B-modeller med utvidet kontekst kan det bety forskjellen mellom en økt som fullfører rent og en som aldri kommer i mål. Ollama, LM Studio og GPT4All tracker allerede endringen fra master-branchen, ifølge Startup Fortune, så oppdateringen sprer seg gjennom resten av økosystemet i løpet av dager, ikke uker.

Hva bør du gjøre?

  1. Vent noen dager før du bytter til master-bygg i prod. Miljøet stress-tester fortsatt lange kontekstvinduer og spesifikke kvantiseringsformater.
  2. Mål selv hvis du kjører 70B-klasse-modeller på en Apple M-brikke eller RTX 4090: kjør samme prompt før og etter oppdatering, noter VRAM-topp og tok/s.
  3. Følg med på Ollama-release notes for når endringen er trygg å bruke i wrapper-verktøyene du allerede har i stacken din.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN