lokale-modeller
96 SAKER INDEKSERT
Cohere slipper Command A+: åpen MoE-modell for suveren infrastruktur
48 språk og full Apache 2.0-lisens. Det er rammene rundt Command A+, Coheres nye Mixture-of-Experts-modell. Den er multimodal og bygget for å kjøres lokalt med datakontrollen i egne hender, rettet mot offentlig sektor og regulerte bransjer. Cohere selger den på datasuverenitet: åpne vekter du eier selv, i et marked der avansert KI ellers samles hos noen få leverandører i noen få land.
AMD Ryzen AI Halo: kompakt arbeidsstasjon med opptil 192 GB minne for lokale LLM-er
NVIDIA slipper Nemotron-Labs-Diffusion: én modell med tre dekodingsmoduser fra 3B til 14B
NVIDIAs Nemotron-Labs-Diffusion samler tre dekodingsmoduser i samme vekter og kjører opptil 5,99x flere tokens per forward enn Qwen3-8B på 8B-modellen.
Stability AI slipper Stable Audio 3.0 med små modeller for lyd på enheten
Ollama v0.30 går over til native llama.cpp i stor arkitekturendring
Forge: guardrails løfter selvhostet 8B-modell fra 53 til 99 prosent på agent-eval
Det MIT-lisensierte Python-rammeverket Forge løfter en selvhostet 8B-modell fra 53 til 99 prosent på sin agent-eval ved å legge guardrails rundt verktøykallene, uten å trene modellen på nytt.
llama.cpp dobler Qwen3.6 27B med Multi-Token Prediction: 7,4 til 18,1 t/s på Strix Halo
llama.cpp slo sammen Multi-Token Prediction 16. mai. På AMD Strix Halo gikk Qwen3.6 27B fra 7,4 til 18,1 tokens per sekund.
Kimi WebBridge: Moonshot AI gjør åpen modell til lokal nettleser-operatør
Supertonic 3: 31 språk, 99M parametre og 404 MB ONNX som kjører på e-blekk
Supertone har sluppet Supertonic 3, en ONNX-basert TTS-motor som kjører lokalt med 31 språk og kun 99 millioner parametre. v3 utvider språkstøtten fra 5 til 31 og legger til uttrykkstagger som <laugh> og <breath>.
Ant Groups F2LLM-v2: åpen flerspråklig embedding-modell i full skala
Ant Group og Shanghai Jiao Tong Universitys CodeFuse-team slapp F2LLM-v2 som fullt åpen flerspråklig embedding-modellfamilie etter 11 førsteplasser på MTEB-benchmarken.
Hermes Agent passerer 140 000 stjerner: selv-utviklende lokal agent kjører på RTX og DGX Spark
Hermes Agent fra Nous Research passerte 140 000 GitHub-stjerner på under tre måneder og er nå mest brukte agent på OpenRouter, ifølge NVIDIA RTX AI Garage.
Needle: 26M-modell distillert fra Gemini 3.1 kan finjusteres lokalt på Mac og PC
Cactus Compute har distillert Gemini 3.1 til en 26M-parameter funksjonskall-modell som kjører lokalt på Mac og PC med 6 000 token/s prefill, alt under MIT-lisens.
Lokale åpne modeller dobler intelligens hver 10. måned: 4,7x på to år, uendret laptop
Smartest åpen modell som kjører på MacBook Pro med 128 GB RAM gikk fra Llama 3 70B (score 10) i mai 2024 til DeepSeek V4 Flash (score 47) i mai 2026, en dobling hver 10,7 måned mens maks unified memory sto på samme tallet.
Bleeding Llama: kritisk Ollama-svakhet lekker minneinnhold fra 300 000 servere
CVE-2026-7482 (CVSS 9.1) lar uautentiserte angripere lekke hele Ollama-prosesshukommelsen med tre API-kall, inkludert system-prompts, brukerprompts og miljøvariabler. Rundt 300 000 internett-vendte servere var sårbare da Cyera Research publiserte funnet 2. mai. Oppgrader til Ollama 0.17.1 nå.
Én linje i tokenizer.json kan kapre KI-modeller hentet fra Hugging Face
HiddenLayer demonstrerer at endring av én streng i tokenizer.json er nok til å omdirigere URLer, bytte shell-kommandoer og snike inn ekstra tool-calls i KI-modeller fra Hugging Face.
Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart
Qwen 3.5 9B i Q4_K_S-kvantisering klarer 40 tokens i sekundet med 128K kontekst på en M4 med 24 GB minne, og er den eneste i en ny test som virker for daglig kodearbeid.
Fedora og Ubuntu legger lokal KI inn i standarddistribusjonen
Fedora 40 og Ubuntu 26.04 leverer llama.cpp, ROCm og CUDA-pakker i standardrepoene, uten telemetri og uten skytvang. Beslutningen sender et signal: lokale modeller er ikke lenger en hobby på siden, men en del av Linux-skrivebordet.
Qwen 2.5 på NAS dekker smarthjem-automatisering uten Claude
Brutalist Report-utvikler: stopp å lime KI-chat på alt, bruk Apples on-device-modell
Brukt server-GPU til 200 dollar kjører LLM bedre enn RTX 3060
Hardware Haven viser hvordan en NVIDIA V100 16 GB fra 2017 kan kjøpes for rundt 100 dollar på SXM2-server-sokkel og kobles til vanlig hovedkort med en adapter til ytterligere 100 dollar. PCIe-versjonen koster typisk over 1000 dollar.
Kritisk Ollama-feil lekker minne fra 300 000 selvhostede servere
Cyera-forskere fant en out-of-bounds heap-lesefeil i Ollama som lar uautoriserte angripere lekke prompt-historikk, API-nøkler og miljøvariabler fra rundt 300 000 internett-eksponerte servere. Feilen er sporet som CVE-2026-7482 og fikset i Ollama 0.17.1.
Google Chrome laster stille ned 4 GB Gemini Nano-modell uten samtykke
Sikkerhetsforsker Alexander Hanff dokumenterte at Google Chrome laster ned 4 GB Gemini Nano-vekter på 14 minutter uten brukersamtykke. Sletter du filen, laster Chrome den ned igjen automatisk.
Kritisk minnelekkasje i Ollama eksponerer 300.000 servere (CVE-2026-7482)
CVE-2026-7482 (CVSS 9.1) lar en uautentisert angriper lekke hele heap-minnet til en Ollama-prosess med tre API-kall, og rammer rundt 300.000 servere som står åpne mot internett. Oppgrader til Ollama 0.17.1 umiddelbart.
Ubuntu satser på lokal inferens og opt-in: Canonical legger KI-funksjoner til 26.10
Canonical legger KI-funksjoner i Ubuntu 26.10 inn som opt-in (9. oktober 2026), avskrudd som standard og med lokal inferens først, ikke i 26.04 LTS. Motsatt strategi av Windows og macOS.
Xiaomi åpner OmniVoice: TTS-modell med stemmekloning på flere hundre språk og enklere arkitektur
Xiaomi åpnet 8. mai OmniVoice, en TTS-modell som rapporterer forståelighet nær eller bedre enn ekte tale på 102 språk og slår kommersielle systemer på 24.
llama.cpp støtter nå Xiaomis MiMo-V2.5 Sparse MoE: 310 milliarder parametere lokalt
llama.cpp har merget støtte for Xiaomis MiMo-V2.5 Sparse MoE med 310 mrd. totale parametere og 15 mrd. aktiverte ved inferens. Samtidig slippes Qwen3.6 27B Heretic og WebWorld 8B/14B/32B i GGUF.
«Bleeding Llama»: Ollama-feil eksponerer 300 000 servere. Tre API-kall henter prompts og miljøvariabler
CVE-2026-7482 lar uautoriserte angripere lese minne fra Ollama-prosessen via tre API-kall, og rammer rundt 300 000 internett-eksponerte servere. Cyera fant feilen, fikset ligger i Ollama 0.17.1.
Hovedkortsalget faller 28 prosent: KI-fabrikker spiser komponentene du trenger til lokale modeller
Hovedkort-salget for de fire største merkene faller 28 prosent i 2026 fordi Nvidia, Intel og AMD prioriterer KI-akseleratorer over forbrukerbrikker. Asus alene selger 5 millioner færre enn i fjor.
Chrome installerer 4 GB Gemini Nano lokalt uten samtykke. Filen kommer tilbake hvis du sletter den
Google Chrome laster ned en 4 GB Gemini Nano-modell til disken din uten å spørre, og legger den tilbake hvis du sletter filen manuelt. Du kan slå den av via chrome://flags, men opt-out forutsetter at du visste at den var der.
mlx-vlm v0.5.0: kontinuerlig batching, MTP-spekulering og Gemma 4-video på Apple Silicon
antirez slipper ds4: dedikert Metal-motor for DeepSeek V4 Flash, 2-bit kvantisering, KV-cache på SSD
Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten
Google la 6. mai til en åpen «drafter»-modell i Gemma 4 som forutsier flere tokens parallelt og gir 2,5 til 3,1 ganger raskere lokal generering, ifølge målinger på Pixel og Apple M4.
Zyphras ZAYA1-8B aktiverer mindre enn 1 milliard parametre per token og matcher 119B-modeller
Zyphra slapp 6. mai ZAYA1-8B, en åpen MoE-modell med 8 milliarder totale parametre, men under 1 milliard aktive per token. Selskapet hevder den matcher Mistral-Small-4-119B og Nemotron-3-Nano-30B-A3B på resonnement, matematikk og kode.
Ollama CVE-2026-7482: GGUF-fil lekker minne fra 300 000 servere, fiks i v0.17.1
En kritisk heap out-of-bounds read i Ollama før 0.17.1 lar uautentiserte angripere lese serverminne via en spesiallagd GGUF-fil. Lekkasjen kan inkludere API-nøkler, systemprompter og andre brukeres samtaler.
Lightning v2.6.3 spredte ShaiWorm: PyPI-import startet 11,4 MB credential stealer via Bun
En kompromittert lightning==2.6.3 på PyPI lastet ned JavaScript-runtimen Bun og kjørte 11,4 MB obfuskert payload ved import. Microsoft kalte malwaren ShaiWorm; alle som installerte versjonen må rotere AWS-, Azure- og GCP-credentials.
vibevoice.cpp: Microsofts VibeVoice kjører nå lokalt på llama.cpp-stacken via ggml
LocalAI-teamet har portet Microsofts VibeVoice til ggml-stacken som driver llama.cpp. ASR, TTS og diarisering kjører nå lokalt på CPU, CUDA, Metal og Vulkan uten Python-runtime.
Ollama v0.23.1: Gemma 4 MTP gir over 2x fart på Mac for kodingsoppgaver
Ollama v0.23.1 legger til Gemma 4 MTP-spekulativ dekoding på MLX. Kodingsoppgaver med Gemma 4 31B på Mac kjører over dobbelt så raskt med modellvarianten gemma4:31b-coding-mtp-bf16.
QNAP slipper QAI-h1290FX: 16-kjerners EPYC, RTX-GPU og 12 NVMe-spor for lokale LLM-er til 19 000 euro
QNAP lanserte 6. mai 2026 QAI-h1290FX, en edge-server for lokal kjøring av LLM-er. AMD EPYC 7302P (16 kjerner), valgfri NVIDIA RTX-GPU, tolv U.2 NVMe-spor, prislapp ca. 18 999 euro.
Unsloth slipper Anthropic-kompatibel API for lokale Qwen og Gemma
Unsloth eksponerer lokale modeller som Qwen3.6-35B og Gemma 4 via «/v1/messages», så Claude Code og OpenAI Codex kan peke mot egen GPU i stedet for Anthropic eller OpenAI.
Tinkerer presser Qwen3-Coder 30B inn i 8 GB VRAM med 262K-kontekst — beskriver hver flaskehals
Upayan Ghosh dokumenterer reisen fra OOM til 262 144 tokens kontekst på en RTX 3060 Ti med 8 GB VRAM, via MoE-offload, TurboQuant KV-cache og Q4-kvantisering.
Qwen3.6-35B kjører på Mac med 48 GB RAM på 77 tokens/sekund — komplett MLX-oppskrift
DEV-skribent oreocato dokumenterer hvordan du kjører Qwen3.6-35B-A3B lokalt på Mac via MLX, med 77 tokens/sekund og 131 072 tokens kontekst på 48 GB unified memory.
Gemma 4 får MTP-drafters: opp til 3x raskere lokal inferens uten kvalitetstap
Google slipper Multi-Token Prediction-drafters for hele Gemma 4-familien. Med spekulativ dekoding lover Google opp til 3x speedup i tokens per sekund på lokal hardware, uten endring i utdata.
Striga finner to upatchede CVE-er i Ollamas Windows-klient som lar angripere plante en stille innloggings-RCE
Ollamas Windows-build kjører signaturverifisering som returnerer «no error» uansett, og bygger oppdateringsstien direkte fra HTTP-headere. Striga viser hvordan kjeden lander en payload i Windows Startup-mappen som kjører ved hver innlogging. Versjon 0.12.10 til 0.23.0 er sårbare.
Bleeding Llama: kritisk Ollama-feil eksponerer prompts og API-nøkler i 300 000 selvhostede oppsett
En CVSS 9.3-feil i Ollamas GGUF-laster lar uautoriserte angripere sende tre API-kall, lese ut prompts og API-nøkler fra heap-minnet, og eksfiltrere dem via Ollamas innebygde push-funksjon. Patchet i 0.17.1.
Llama.cpp får MTP-beta og Sentinel kommer som lokal-først kodeeditor på toppen av Ollama
To uavhengige slipp samme uke flytter lokal KI-kjøring videre: llama.cpp legger Multi-Tentacle Processing inn i beta-grenen for å parallellisere inferens, mens utvikleren Achaq slipper Sentinel, en åpen desktop-app som kjører kode-assistanse mot Ollama uten at filene forlater maskinen din.
Chrome dytter en 4 GB Gemini Nano-modell ned på maskinen din uten å spørre, og laster den ned igjen hvis du sletter
Personvernforskeren bak That Privacy Guy dokumenterte 24. april 2026 at Google Chrome installerer Gemini Nano-modellen på 4 GB i en katalog kalt OptGuideOnDeviceModel uten samtykkedialog. Sletter du filen, laster Chrome den ned på nytt neste gang variations-serveren melder at profilen er kvalifisert.
Ollama v0.23.0 åpner Claude Desktop mot lokale modeller med «ollama launch claude-desktop»
Ollama v0.23.0 lar deg starte Claude Desktop-appen med Claude Cowork og Claude Code som backend mot lokale Ollama-modeller via «ollama launch claude-desktop». Releasen 3. mai 2026 fikser også OpenClaw-gateway-timeout på Windows ved å tvinge IPv4-loopback.
Qwen3-TTS: Alibabas åpne talesyntese-modeller er ute — ned til 0,6B parametere
The Register: Slik kjører du Claude Code mot en lokal Qwen3.6-modell og dropper token-regningen
The Register viser hvordan du peker Claude Code, Pi Coding Agent eller Cline mot en lokal Qwen3.6-27B på en 24 GB GPU og slipper unna Anthropic og Microsofts skifte til bruksbasert prising.
En uke uten Claude Pro: lokal Qwen 3.5 9B taklet alt unntatt render-panelet
XDA-skribent erstattet Claude Pro med Qwen 3.5 9B på en RTX 3070 i en uke. Bilde-analyse og research holdt mål, men render-panelet ble grunnen til å beholde $17/mnd-abonnementet.
Calibre 9.8: e-boklesleren støtter alle lokale OpenAI-kompatible KI-leverandører
OpenWarp: AGPL-fork av Warp lar deg koble til DeepSeek, Anthropic og Ollama lokalt
Intel auto-round v0.12.3: kvantiserer LLM til 2–4 bit på CPU og GPU med vLLM- og SGLang-støtte
Intel auto-round v0.12.3 kvantiserer 7B-modeller til 4 bit på rundt 10 minutter på én GPU, med vLLM- og SGLang-støtte og en INT2-DeepSeek-R1 som beholder 97,9 prosent nøyaktighet.
Lemonade v10.3: én lokal OpenAI-API for tekst, bilder og tale i 10x mindre app
Lemonade samler llama.cpp, stable-diffusion.cpp, whisper.cpp og Kokoro-TTS bak én lokal OpenAI-kompatibel endpoint. v10.3 byttet ut Electron med Tauri, kuttet appstørrelsen til en tidel og lagt til OmniRouter for omni-modal chat på egen GPU.
Tencent slipper Hunyuan-MT i 1,25-bit kvantisering: 33 språk i 440 MB som kjører offline på telefon
Tencent har åpnet Hy-MT1.5-1.8B i 1,25-bits-kvantisering: 33 språk og 1056 oversettelses-retninger pakket fra 3,3 GB til 440 MB, kjørbart offline på Android.
Anaconda Desktop i beta: lokal LLM-inferens og conda samlet i ett vindu
Anaconda har sluppet Anaconda Desktop i offentlig beta. Appen samler modell-oppdagelse, lokal inferens og conda-miljøhåndtering på Windows, Mac og Linux og er den varslede arvtakeren etter Navigator.
Home Assistant med Qwen3 lokalt slår Googles Gemini for Home, også når kommandoen er tvetydig
Home Assistant med en lokal LLM som Qwen3 9B håndterer tvetydige smarthjem-kommandoer bedre enn Gemini for Home, som dessuten stopper på 20 spørringer per dag på gratisplan.
Nvidia Nemotron 3 Nano Omni: 30B parametere, 3B aktive, multimodal modell for én GPU
Nvidia slipper Nemotron 3 Nano Omni, en åpen multimodal modell med 30 milliarder parametere og 3 milliarder aktive per inferens, designet for å kjøre KI-agenter på én GPU.
Poolside slipper Laguna XS.2 åpent: 33B MoE med 3B aktive, Apache 2.0 og signal om mer åpenhet
Poolside frigir Laguna XS.2 på Hugging Face under Apache 2.0 — en MoE med 33 milliarder parametere totalt og 3 milliarder aktive, optimert for agentisk koding. Selskapet sier det er deres første åpne modell og varsler en bredere satsning på open-weight-økosystemet.
LittleLamb: Multiverse komprimerer Qwen3-0.6B med 50 % og slår originalen på HLE
Multiverse Computing slipper tre 0.3B-modeller bygget på CompactifAI-komprimering av Qwen3-0.6B. Begge tekstvariantene slår originalen på HLE-benchmarken.
Xiaomi slipper MiMo-V2.5-Pro under MIT: 1,02 billioner parametere MoE med 1M-token kontekst
MiMo-V2.5-Pro har 1,02 billioner totale parametere og 42 milliarder aktive, hybrid attention med 6:1 SWA-til-GA-ratio og innebygd Multi-Token Prediction. På SWE-Bench Pro scorer den 57,2.
CVE-2026-33626: SSRF i LMDeploy ble utnyttet på 12 timer og gir tilgang til cloud-metadata
Sårbarheten i LMDeploys load_image() lar angripere bruke modell-serveren som SSRF-primitiv mot 169.254.169.254 og interne tjenester, og første utnyttelse skjedde 12 timer og 31 minutter etter avsløringen.
Pocket LLM v1.5.0 kjører multimodal KI på Android uten internett
Pocket LLM har nådd v1.5.0 med stemmeinndata, bildegjenkjenning, OCR og direktekamera-analyse, alt kjørt lokalt på Android via Gemma Vision og FastVLM. Apputviklingen ble annonsert i Reddits Qwen-fellesskap, og hele endringsloggen ligger på GitHub-utgavesiden.
Ollama opp til versjon 0.20.2 har path traversal-sårbarhet — CVE-2026-7020
Qwen3.6-27B slår Claude Opus på flere kode-benchmarks — åpen og lokal
Alibaba har lansert Qwen3.6-27B, en åpen dense modell som matcher Claude 4.5 Opus på flere kode-benchmarks og kjører lokalt i BF16 på 55,6 GB.
«Frankenstein»-modell stabler Claude Opus, GLM og Qwen: slår 35B på 9,2 GB VRAM
Kyle Hessling stablet lag fra tre destillerte modeller til en 18B hybrid som slår Alibabas 35B på 40 av 44 tester og kjører på en RTX 3060 med 9,2 GB VRAM.
Ternary Bonsai kjører 8B-modell på 1,58 bits — 82 tokens/sek på M4 Pro uten GPU
PrismML slipper Ternary Bonsai, en modellfamilie på 1,58 bits per vekt som kjører 8B-modellen på 1,75 GB minne og 82 tokens/sek på Apple M4 Pro. Åpent under Apache 2.0 og tilgjengelig via MLX.
SGLang har kritisk RCE-sårbarhet CVE-2026-5760: Ondsinnede GGUF-filer kjører Python på serveren (CVSS 9,8)
CERT/CC advarer om CVE-2026-5760 i SGLang: en ondsinnet GGUF-fil kan kjøre vilkårlig Python-kode via «/v1/rerank». CVSS 9,8. Patch umiddelbart hvis du serverer lokale LLM-er.
RAM-mangelen kan vare til 2030 — lokal inferens blir dyrere lenge
TRELLIS.2 kjører bilde-til-3D på M4 Pro: 424 000 vertekser på 3,5 minutter uten Nvidia
Shivam P. Kumar har portet Microsofts TRELLIS.2 bilde-til-3D-modell til Apple Silicon via PyTorch MPS. En M4 Pro med 24 GB unified memory genererer nå meshes med 424 000 vertekser på rundt 3,5 minutter.
llama.cpp fletter inn spekulativ sjekkpunkting: 40 prosent mindre VRAM, 20 prosent flere tokens
Georgi Gerganov flettet 18. april inn spekulativ sjekkpunkting i llama.cpp. Benchmarks viser opptil 40 prosent mindre VRAM og 15-20 prosent flere tokens per sekund på 70B-modeller.
Gemma 4 kjører i Chrome med WebGPU: prompt-til-Excalidraw i nettleseren, 3 GB RAM
Et Show HN-demo kjører Google Gemma 4 E2B direkte i Chrome via WebGPU, og genererer Excalidraw-diagrammer fra en tekstprompt uten å ringe et sky-API en eneste gang.
Google Gemma 4 er ute: Apache-lisens og MoE som kjører i 4B-fart
Gemma 4 er Googles nye åpne MoE-modellserie under Apache 2.0, der E4B-varianten svarer på 0,26 sekunder på en AMD RX 6700XT og E2B på 4 GB kjører lokalt på mobil.
Qwen3.6-35B-A3B: Alibaba slipper MoE-modell med 35 mrd parametere der bare 3 mrd er aktive
35 milliarder totale parametere, 3 milliarder aktive per token: Alibabas nye Qwen3.6-35B-A3B er en Mixture-of-Experts-modell bygget for å kjøre effektivt på forbrukerhardware og slå Qwen3.5-27B på agentisk koding.
Mozilla lanserer Thunderbolt — åpen kildekode KI-klient med MCP- og ACP-støtte
Mozilla har lansert Thunderbolt, en åpen kildekode KI-klient under MPL 2.0 for selvhosting med støtte for MCP, ACP og både lokale og kommersielle modeller.
21GB Qwen3.6 på en laptop tegnet bedre pelikan enn Claude Opus 4.7
Simon Willison testet Qwen3.6-35B-A3B (20,9GB kvantisert) mot nye Claude Opus 4.7 på sin MacBook Pro M5 via LM Studio. Den lokale modellen vant på både pelikan-på-sykkel og flamingo-på-enhjuling — SVG-benchmarken Willison har brukt siden oktober 2024.
Baidu open-sourcer Ernie-Image: 8 milliarder parametere kjører på 24 GB VRAM
Baidu åpner Ernie-Image, en Diffusion Transformer med 8 milliarder parametere som kjører på forbrukergrafikkort med 24 GB VRAM og matcher lukkede modeller som NanoBanana i tekstgjengivelse.
Darkbloom kutter inferens-prisen 50 prosent ved å kjøre på ledige Mac-er
Darkbloom er et desentralisert inferensnettverk som kjører på ledige Apple Silicon-maskiner, halverer prisen mot OpenRouter og gir hardware-verifisert personvern.
Gemma 4 kjører nå fullt offline på iPhone — E2B-varianten anbefalt for mobilbruk
Googles Gemma 4 er tilgjengelig for lokal inferens på iPhone via AI Edge Gallery-appen. Ingen skytjeneste, ingen API-kall — modellen kjører direkte på enhetens GPU.
Google Gemma 4 kjører direkte på iPhone med full offline-inferens
AMD lanserer GAIA — open source-rammeverk for KI-agenter på lokal maskinvare
AMD slipper GAIA, et open source-rammeverk for å bygge KI-agenter som kjører helt lokalt uten skyavhengighet — med SDK i Python og C++.
Slik kjører du Gemma 4 lokalt i Codex CLI
ROCm tar opp kampen mot CUDA: AMD satser steg for steg
Microsoft Foundry Local: kjør Qwen og Whisper lokalt uten skytilkobling
Finjuster Gemma 4 multimodalt på Apple Silicon — uten sky eller NVIDIA
Spekulativ dekoding gjør lokale LLM-er raskere uten maskinvareoppgradering
Kjør Gemma 4 lokalt med LM Studios nye headless CLI
Arcee AI lanserer Trinity-Large-Thinking: åpen resonneringsmodell med 399 milliarder parametere
Arcee AI slipper Trinity-Large-Thinking under Apache 2.0-lisens. Modellen scorer 91,9 på PinchBench, tett bak Claude Opus 4.6 (93,3), til 96 prosent lavere pris.
Vitalik Buterin dropper sky-KI helt — deler sin lokale LLM-stack
Google lanserer Gemini Nano 4 for lokal KI på Android
Caltech-startup slipper 1-bit LLM som er 14 ganger mindre og kjører på iPhone
Arcee AI slipper Trinity Large Thinking: Apache 2.0 resonneringsmodell for langsiktige agenter
mesh-llm: kjør store KI-modeller fordelt over vanlige PCer i nettverket
Google Gemma 4: fire open-source-modeller med Apache 2.0-lisens
Google DeepMind slipper fire nye Gemma-modeller fra 2B til 31B parametere, nå med Apache 2.0-lisens og ytelse som slår langt større modeller.
SmolLM2 kjører på en Samsung Galaxy Watch med 380 MB RAM
1-bit kvantisering og TurboQuant: kan lokale modeller bli like raske som skytjenester?
Mens de fleste kjører 4-bit kvantiserte modeller lokalt, tester en gruppe utviklere nå 1-bit varianter av Qwen3. Resultatene fra en ny simulering viser at TurboQuant-metoden beholder overraskende mye kvalitet selv ved ekstrem komprimering. For Qwen3 30B faller benchmark-score bare 8 prosent fra full presisjon til 1-bit, mens minnebruken synker fra 60 GB til under 6 GB. Det betyr at du kan kjøre en 30B-modell på en vanlig gaming-GPU. Foreløpig er det et forskningsprosjekt, men retningen er tydelig.