llama.cpp støtter nå Xiaomis MiMo-V2.5 Sparse MoE: 310 milliarder parametere lokalt

For et år siden var Sparse Mixture-of-Experts forbeholdt store sky-leverandører. Nå skipes arkitekturen direkte inn i llama.cpp, som var det første alvorlige forsøket på å gjøre lokale LLM-er praktiske. Pull request-en for MiMo-V2.5 er mergeret i hovedgrenen denne uken, og lar deg laste Xiaomis 310 milliarder-parameter MoE med kun 15 milliarder aktive ved inferens. Det betyr at minneforbruket er nærmere en 70B dense-modell enn en 310B, og at modellen kan kjøres på arbeidsstasjoner med 256 GB RAM eller dedikert KV-cache offload.

Samtidig dukker det opp to andre signaler i samme økosystem-uke. Qwen3.6 27B Heretic v2 ligger ute i Safetensors, GGUF og NVFP4, med KLD 0.0021 og 6 nektelser per 100 prompter ifølge utgiveren — altså en kraftig av-sensurert variant for selvhostet bruk der filtrene fra leverandøren går i veien. NVFP4-kvantiseringen er spesielt interessant for Blackwell-kort som RTX 5090, der formatet gir opp mot dobbelt så høy throughput som FP16 på samme silisium.

«En av-sensurert 27B Qwen-modell i GGUF er en stor seier for lokalt personvern og fleksibilitet» — kommentar i r/LocalLLaMA

Den tredje slippen er WebWorld: tre Qwen3-finetuner (32B, 14B, 8B) trent på over én million ekte web-interaksjons-trajektorier. Målet er lokale web-agenter som ikke trenger å sende DOM-trær til en sky-modell for hver klikk. Et hierarkisk innsamlingssystem genererte treningsdataene, og de tre størrelsene gjør det realistisk å kjøre en agent på en bærbar med 16 GB VRAM (8B-varianten) eller på en arbeidsstasjon med dedikert GPU (32B). For norske utviklere som har lekt med Browser Use eller Playwright-MCP, er dette første gang du kan bytte ut den proprietære reasoner-modellen med en lokal vekt.

Praktisk betyr dette tre uavhengige reduksjoner i avhengighet av sky-API. MiMo-V2.5 dekker tunge resonnement-oppgaver via MoE-effektivitet. Qwen3.6 Heretic dekker det av-sensurerte mellomsegmentet. WebWorld dekker agent-arbeidsflater som tidligere måtte sende sensitive sider til OpenAI eller Anthropic.

Hva bør du gjøre?

Bygg llama.cpp fra hovedgrenen: kjør git pull && make clean && make for å få MiMo-støtten. Sjekk at modellfilen din er konvertert med tilsvarende convert_hf_to_gguf.py fra samme commit.
Test Qwen3.6 27B Heretic v2 i GGUF: hent en Q4_K_M-kvantisering for omtrent 16 GB VRAM-bruk. Nektelsesraten på 6/100 stemmer ikke nødvendigvis med dine egne prompt-mønstre, så benchmark mot dine faktiske oppgaver.
Vurder WebWorld 8B for lokale web-agenter: hvis du allerede har en agent som kaller Claude eller GPT for hver side-handling, bytt inn 8B-varianten via llama-server og mål kvalitetsfall mot kostnadskutt.