Georgi Gerganov, opprinnelig forfatter av llama.cpp, flettet 18. april inn det mange i miljøet mener er den mest betydningsfulle ytelsesoppdateringen på flere år, skriver Startup Fortune. Teknikken får navnet «speculative checkpointing» og omskriver hvordan inferens-motoren håndterer minne-tilstand underveis i generering.
Problemet den løser er velkjent for alle som kjører store modeller lokalt. Standard LLM-inferens krever at hele KV-cachen synkroniseres og tas backup av hver gang spekulativ dekoding trenger en tilbakerulling. På hardware med begrenset minnebåndbredde (Apple M-brikker, forbruker-RTX-kort) bygger den overheaden seg opp raskt og setter et tak på hvor langt du kan strekke kontekstvinduet før minnet går tomt.
Spekulativ sjekkpunkting omgår dette ved å holde en sparsom, lettvekts snapshot av delta-endringer i de spekulative fasene, i stedet for å flushe hele cachen hver gang. Benchmarks fra merge-diskusjonen viser opptil 40 prosent reduksjon i VRAM under batched operasjoner, og 15 til 20 prosent forbedring i tokens per sekund på båndbredde-begrenset forbrukerhardware.
For 70B-modeller med utvidet kontekst kan det bety forskjellen mellom en økt som fullfører rent og en som aldri kommer i mål. Ollama, LM Studio og GPT4All tracker allerede endringen fra master-branchen, ifølge Startup Fortune, så oppdateringen sprer seg gjennom resten av økosystemet i løpet av dager, ikke uker.
Hva bør du gjøre?
- Vent noen dager før du bytter til master-bygg i prod. Miljøet stress-tester fortsatt lange kontekstvinduer og spesifikke kvantiseringsformater.
- Mål selv hvis du kjører 70B-klasse-modeller på en Apple M-brikke eller RTX 4090: kjør samme prompt før og etter oppdatering, noter VRAM-topp og tok/s.
- Følg med på Ollama-release notes for når endringen er trygg å bruke i wrapper-verktøyene du allerede har i stacken din.