DEV Communitys ukerapport for r/LocalLLaMA og r/Ollama dekker tre samtidige bevegelser i lokal-KI-stacken: en MTP-beta i llama.cpp, en chat-template-fix for Gemma 4 GGUF, og lansering av Sentinel som lokal-først kodeeditor. Alle tre kommer fra fellesskapet rundt åpne vekter, ikke fra plattformaktørene.
Multi-Tentacle Processing (MTP) er bidratt av utvikleren Aman med flere medbidragsytere. Funksjonen optimaliserer hvordan llama.cpp distribuerer modellberegning mellom tilgjengelige hardware-ressurser, med spesiell vekt på lengre kontekstvinduer. Beta-statusen betyr at API-en kan endres, men brukerne som har testet rapporterer merkbar latensreduksjon ved prompt-prosessering.
«MTP-arrivalen i llama.cpp er stor. Jeg gleder meg til å teste potensialet for vesentlige hastighetsforbedringer på min lokale maskin, særlig for større modeller.» — Tester på r/LocalLLaMA
Gemma 4 GGUF-fiksen retter en chat-template-feil som påvirket hvordan brukerprompter og modellsvar ble strukturert i samtaler. Bartowski har allerede lagt oppdaterte filer på Hugging Face. Hvis du kjører Gemma 4 lokalt og opplever rar oppførsel i flertrinns-dialoger, er sannsynligheten stor for at du har en utdatert GGUF.
Sentinel er det mest interessante slippet for utviklere som bygger med KI-kodeassistanse på sensitive prosjekter. Bygget av Achaq, peker du Sentinel mot en lokal prosjektmappe og hver kode-tråd får sin egen kontekst. Inferens skjer mot Ollama, så modellvalget er ditt: Qwen 2.5 Coder, DeepSeek Coder V2, Gemma 4, eller egen finetune. Ingenting går til skyen.
Hva bør du gjøre?
- Klon llama.cpp main-grenen og bygg med MTP-flagget hvis du har en GPU med nok VRAM til å kjøre 13B+ modeller. Sammenlign tokens per sekund mot stable-grenen før du oppgraderer prod-bruk.
- Sjekk om dine Gemma 4 GGUF-filer er oppdaterte. Last ned fra Bartowskis Hugging Face-konto hvis du er i tvil. Chat-template-feilen påvirker særlig multi-turn-bruk og verktøykall.
- Test Sentinel som lokal Cursor-erstatter på et reelt prosjekt. Pek den mot Ollama med en kode-modell du allerede har lastet ned. Vurder kontekst-håndtering og diff-kvalitet før du tar den i bruk på sensitive kodebaser.
Bakgrunn
llama.cpp er rygraden i økosystemet for lokal LLM-kjøring på forbrukermaskinvare. Hver større feature-merge har ringvirkninger til Ollama, LM Studio, KoboldCpp og andre wrappers. Sentinels valg om å bygge oppå Ollama heller enn å snakke direkte mot llama.cpp speiler en bredere trend: applikasjonslaget legger seg over Ollamas runtime fordi modell-håndtering og GGUF-fetching da er løst.