#lokale-modeller

08:12

08:12 Verktøy · 2 min · GamesBeat

Nvidia lar KI-agenter kjøre lokalt på DGX Station

04:38

04:38 Verktøy · Lenke · BetaKit

Ollama henter 65 millioner dollar til lokal KI

00:40

00:40 Verktøy · 2 min · Release notes from ollama

Ollama-forhåndsversjon gir CLI-agenten et skills-system

I går · mandag 20. juli

20:09

20:09 Verktøy · Lenke · Imbue

Bouncer skiller KI-tekst fra menneskeskrevet med egen detektormodell på enheten

12:36

12:36 Modell · 2 min · Hi-Tech.ua

Bonsai 27B kjører 27 milliarder vekter på iPhone i 3,9 GB

08:18

08:18 Modell · 3 min · Tech Times

VideoChat3 slår GPT-5 på tidsforankring i video med 4B parametere

04:13

04:13 Verktøy · 3 min · Hacker News

Headroom måler GPU-taket ditt for lokale modeller på 30 sekunder

01:01

01:01 Sikkerhet · 3 min · The Decoder

Åpne modeller er nå fire til sju måneder bak på cyberangrep

00:49

00:49 Verktøy · 2 min · XDA Developers

Bouncer filtrerer X-feeden din med en modell i nettleseren

Søndag 19. juli

16:41

16:41 Bransje · 2 min · AI News & Artificial Intelligence | TechCrunch

Current AI bygger åpen, offentlig KI-infrastruktur med 400 mill. dollar

13:01

13:01 Forskning · 2 min · Tech Times

PrismML klemmer en 27 milliarder-parameter KI-modell ned til under 4 GB for iPhone

Lørdag 18. juli

20:20

20:20 Verktøy · 2 min · Phoronix

AMD slipper Lemonade 11.0: lokal KI-server med tekst-til-tale

04:35

04:35 Verktøy · Lenke · Awesome Agents

LM Studios Bionic deler kodejobben mellom lokal og sky-KI

04:22

04:22 Modell · Lenke · NotebookCheck

Bonsai 27B krymper Qwen3.6 til 3,9 GB og kjører på iPhone uten sky

00:19

00:19 Modell · 2 min · MarkTechPost

NVIDIA slipper Nemotron 3 Embed: åpen embedding-modell topper RTEB

Fredag 17. juli

12:35

12:35 Forskning · 2 min · zhinit.dev

Hjemmedatamaskin fra 2019 trente en generativ KI-modell for kick-trommer

12:27

12:27 Verktøy · 2 min · GitHub

AMD ROCm 7.14 bytter til TheRock byggesystem for lokal KI

04:35

04:35 Verktøy · 2 min · LM Studio Blog

LM Studio lanserer Bionic: KI-agent for lokale og åpne modeller

04:27

04:27 Bransje · 2 min · WinBuzzer

Apple vurderer PrismMLs komprimeringsteknologi for større KI-modeller på iPhone

Torsdag 16. juli

18:57

18:57 Modell · 2 min · explainx.ai

Gemma 4 oppdateres med FlashAttention 4, bedre verktøykall og skarpere OCR

Onsdag 15. juli

16:28

16:28 Forskning · Lenke · DEV Community

KronQ får 2-bit-modeller til å virke der GPTQ kollapser

16:26

16:26 Forskning · Lenke · TECHi

llama.cpp får 4,26x raskere prefill på Intel Arc, men bare i et smalt tilfelle

04:46

04:46 Modell · 2 min · MarkTechPost

PrismML Bonsai 27B: 1-bit og ternære versjoner av Qwen3.6-27B kjører på laptop og telefon

Tirsdag 14. juli

18:46

18:46 Bransje · 2 min · AI News & Artificial Intelligence | TechCrunch

Hugging Face-sjefen: frontier-modellene blir for eksperimenter, produksjonen kjører på åpne vekter

04:19

04:19 Verktøy · 2 min · Creative AI News

Kjør Qwen3.6 2,5x raskere lokalt med Unsloth NVFP4

02:44

02:44 Verktøy · 2 min · Release notes from ollama

Ollama 0.32 gjør kommandolinja til en agent, med skymodell som standard

Mandag 13. juli

20:16

20:16 Modell · 2 min · The Decoder

Tysk konsortium slipper åpen 30B-modell: Soofi S aktiverer bare 3,2 milliarder parametre per token

16:20

16:20 Verktøy · 2 min · How-To Geek

Selvhostet SearXNG gir lokale KI-modeller websøk uten API-nøkler

11:17

11:17 Verktøy · 2 min · vLLM (GitHub)

vLLM 0.25 sletter PagedAttention og fjerner seks modellfamilier

04:27

04:27 Verktøy · 3 min · XDA Developers

21 Docker-containere uten dokumentasjon: Gemma 4 skrev wikien på en time, men droppet fire tjenester

Søndag 12. juli

20:28

20:28 Bransje · Lenke · AI | The Verge

M7 Ultra kan få 1,5 TB RAM, arven fra Apples døde bilprosjekt

16:34

16:34 Verktøy · 2 min · How-To Geek

Han fikk Claude til å skrive sin egen erstatning: llama.cpp og en Python-løkke

08:35

08:35 Verktøy · 3 min · Iroh

Mesh LLM deler modellen lag for lag over flere maskiner via iroh og QUIC

08:28

08:28 Verktøy · 3 min · Andryo Marzuki

Utvikler fikset tre cache-bugs og kuttet prefill fra 88 sekunder til 0,64 på Mac Studio

08:24

08:24 Verktøy · 2 min · byteiota

Zed 1.10 kjører KI-agenten mot lokal llama.cpp, uten at koden forlater maskinen

04:21

04:21 Verktøy · 2 min · DEV Community

Unsloths NVFP4-quants kjører Qwen3.6 2,5x raskere, men bare på Blackwell

04:20

04:20 Modell · 2 min · XDA Developers

Gemma 4 kjører syn, tale og 256K kontekst lokalt på 8 GB VRAM

04:19

04:19 Forskning · 3 min · Tom's Hardware

Colibrì kjører GLM-5.2 med 744 milliarder parametre på 25 GB RAM

04:18

04:18 Forskning · 2 min · DEV Community

Utvikler kuttet TTFT 9,9x på Android ved å gjenbruke llama.cpp KV-state

00:32

00:32 Verktøy · 2 min · GitHub

Reame: åpen LLM-inferensserver som blir raskere jo mer den kjører

Lørdag 11. juli

16:37

16:37 Forskning · 2 min · byteiota

Nvidia dropper draft-modellen i spekulativ dekoding med nye Nemotron-vekter

16:22

16:22 Bransje · 2 min · Newsweek

Qualcomm: KI-agenter vil selv avgjøre om jobben kjører i sky eller på enhet

12:31

12:31 Verktøy · 2 min · TechAmerica.ai

Fransk startup ZML lanserer gratis inferensplattform på tvers av brikkeleverandører

12:18

12:18 Verktøy · 2 min · XDA Developers

Byttet ut Gemma 4 med en to år gammel kode-LLM, fikk et bedre lokalt KI-oppsett

00:43

00:43 Bransje · 2 min · SME Business Review

Ollama henter 65 millioner dollar mens utviklere velger lokal KI

Fredag 10. juli

08:36

08:36 Verktøy · 4 min · GitHub

Colibri kjører GLM 5.2 på 25 GB RAM ved å streame eksperter fra disk

04:32

04:32 Verktøy · Lenke · Release notes from ollama

Ollama 0.32.0-rc0 legger til «ollama agent», et terminalgrensesnitt for agent-kjøring

04:22

04:22 Verktøy · 2 min · 9to5Mac (The Information)

PrismML sier de kjører Qwen 3.6 med 27 milliarder parametere på iPhone 17 Pro, åpen kildekode 14. juli

Torsdag 9. juli

20:50

20:50 Modell · 2 min · MarkTechPost

Komprimert Nemotron kjører åtte 1M-forespørsler på én H100

16:23

16:23 Verktøy · Lenke · TechCrunch

Ollama henter 65 millioner dollar og passerer 8,9 millioner utviklere i måneden

Onsdag 8. juli

20:23

20:23 Verktøy · Lenke · AppSelfHost

Ollama v0.31.2-rc2: ny agent-kjøreramme og ROCm-endringer

16:30

16:30 Verktøy · 2 min · AppSelfHost

Unsloth v0.1.48-beta: automatisk modellbytte gjør verktøyet til en full llama-swap-erstatning

00:38

00:38 Verktøy · Lenke · LavX News

AMD lanserer Ryzen AI Halo-arbeidsstasjon på 3999 dollar for lokal KI

Tirsdag 7. juli

08:21

08:21 Verktøy · Lenke · IEEE Spectrum

Små KI-modeller vinner frem der nettet er upålitelig og datasentre mangler

Søndag 5. juli

12:37

12:37 Verktøy · 1 min · 36Kr (QbitAI)

mlx-dspark: uavhengig utvikler porterte DeepSeeks DSpark til Apple Silicon

Lørdag 4. juli

12:46

12:46 Forskning · Lenke · arXiv

Program-as-Weights: en 0,6B-modell matcher 32B ved å kompilere oppgavelogikk til vekter

08:32

08:32 Forskning · 2 min · arXiv

Ny arkitektur Wiola skal gjøre små språkmodeller mer effektive

04:20

04:20 Forskning · 1 min · Wafer AI

GLM-5.2 kjører 2626 tokens/sek per node på AMD MI355X til under halve Blackwell-prisen

04:15

04:15 Verktøy · 1 min · GitHub

Program-as-Weights: 23 MB lokal modell skal matche en 32B på enkeltoppgaver

Fredag 3. juli

20:20

20:20 Verktøy · 1 min · GitHub (jamesob/local-llm)

Guide til å bygge og kjøre toppmoderne språkmodeller lokalt

12:25

12:25 Verktøy · 2 min · MarkTechPost

WebBrain: åpen kildekode nettleser-agent som kjører helt lokalt

Torsdag 2. juli

04:33

04:33 Forskning · 2 min · XDA Developers

Testet en lokal LLM mot en frontier-sky-modell: gapet var mindre enn ventet

Onsdag 1. juli

18:58

18:58 Modell · 2 min · Hugging Face - Blog

Hugging Face og Cerebras kjører Gemma 4 31B for sanntids stemme-KI

10:04

10:04 Verktøy · 2 min · Mozilla AI Blog

Mozilla.ai slipper transcribe.cpp: llama.cpp for lokal tale-til-tekst

10:00

10:00 Modell · 2 min · DEV Community

NVIDIA Nemotron 3 Ultra mot GLM-5.2: to åpne modeller, to ulike maskinkrav

08:51

08:51 Verktøy · 2 min · Hacker News - Newest: ""AI" "LLM" "Claude""

Wayfinder Router velger lokal eller sky-LLM på under ett millisekund

08:45

08:45 Regulering · 2 min · The Decoder

Østerrike vil lokke Anthropic til EU etter amerikansk tilgangsstopp

08:40

08:40 Verktøy · 2 min · Hacker News - Newest: ""AI" "LLM" "Claude""

Bash4LLM+ er én Bash-fil som snakker med LLM-APIer uten avhengigheter

08:36

08:36 Modell · 2 min · SiliconANGLE

Meituan open-sourcer LongCat-2.0: 1,6 billioner parametere trent på kinesiske brikker

06:46

06:46 Forskning · 2 min · The Decoder

DeepSeek slipper DSpark: opptil 85 prosent raskere inferens under strammere eksportkontroll

04:22

04:22 Sikkerhet · 2 min · SecurityWeek

175 000 eksponerte Ollama-servere: gratis KI-infrastruktur for angripere

02:52

02:52 Bransje · 2 min · Latent.Space

Ahmad Osman: derfor tar lokal KI innpå

Tirsdag 30. juni

20:23

20:23 Bransje · 2 min · Tom's Hardware

ZLUDA v6 mister finansieringen igjen og går tilbake til hobbystatus

16:26

16:26 Verktøy · 2 min · Oflight Inc.

Japan åpner statens KI-plattform: Open GENAI kjører Ollama, Qdrant og Stable Diffusion

08:21

08:21 Forskning · 2 min · TechTimes

DFlash knekker spekulativ dekoding: 15x raskere inferens på Blackwell GPU-er

00:36

00:36 Verktøy · 3 min · AI Superhero

Bygg en offline KI-kodermaskin: full agentisk arbeidsflyt uten sky

Mandag 29. juni

20:18

20:18 Modell · 2 min · Quesma

Qwen 3.6 27B: 27 milliarder parametre slår 397 milliarder på koding

16:25

16:25 Modell · Lenke · MarkTechPost

Liquid AI sender LFM2.5-230M: liten modell kjører lokalt via llama.cpp, MLX og vLLM

16:15

16:15 Forskning · 2 min · GetAIBook

DiffusionGemma 26B: Google DeepMind erstatter token-generering med parallell tekstdiffusjon for lokal kjøring

04:07

04:07 Modell · 2 min · Semgrep

GLM 5.2 slår Claude i Semgreps sikkerhetsbenchmark: 39 mot 32 prosent på IDOR-funn

00:12

00:12 Modell · 3 min · AI Insiders

Liquid AI krymper LFM2.5 til 230M parametre: ikke-transformer-modell kjører på Raspberry Pi

Søndag 28. juni

22:51

22:51 Verktøy · 2 min · XDA Developers

Open Notebook: selvhostet NotebookLM-alternativ holder til daglig bruk etter en ukes test

22:48

22:48 Forskning · 2 min · MarkTechPost

DeepSeek åpner DSpark: spekulativ dekoding gir 60 til 85 prosent raskere V4-inferens

Mandag 15. juni

14:37

14:37 Modell · 2 min · 9to5Mac

Apples tredje generasjon Foundation Models: lokal KI, sky og Siri på Google-servere

Søndag 14. juni

18:20

18:20 Verktøy · 2 min · VideoCardz

AMD Ryzen AI Halo-PC med 128 GB minne nå tilgjengelig for 3 999 dollar

18:18

18:18 Verktøy · 2 min · MarkTechPost

Moonshot AI lanserer Kimi Work: lokal skrivebordsagent med sverm av 300 sub-agenter

15:10

15:10 Verktøy · 2 min · stephen.bochinski.dev

KI-koding hjemme uten å gå konkurs: erfaringer fra en hobbyutvikler

14:36

14:36 Modell · 2 min · Google DeepMind

Google DeepMind slipper DiffusionGemma: open-weight modell genererer tekst 4× raskere

14:30

14:30 Modell · Lenke · byteiota

ZAYA1-8B: frontlinje-resonneringsmodell trent utelukkende på AMD-maskinvare, uten NVIDIA

12:04

12:04 Modell · 2 min · MarkTechPost

Zyphra slipper Zamba2-VL: hybrid Mamba2-modell kutter tid til første token med rundt ti ganger

Onsdag 10. juni

14:20

14:20 Forskning · 2 min · InfoSec Today

Forskere bygger selvreplikerende KI-orm som kjører utelukkende på lokale open-weight-modeller

10:14

10:14 Modell · 2 min · TPS Report

Google DeepMind slipper Gemma 4 12B: multimodal modell som kjører på 16 GB RAM

Tirsdag 9. juni

22:11

22:11 Verktøy · Lenke · Digg

Kocoro: åpen kildekode Mac-agent med lokalt episodisk minne

18:43

18:43 Forskning · 2 min · The Hacker News

Forskere bygde en selvspredende KI-orm som kjører helt på lokale åpne modeller

18:39

18:39 Modell · 2 min · MarkTechPost

Xiaomi MiMo og TileRT presser en billionparameter-modell forbi 1000 tokens per sekund på vanlige GPU-er

18:37

18:37 Modell · 2 min · byteiota

Chrome får innebygd Gemma 197M: lokal språkmodell i nettleseren uten serverkostnad

Søndag 7. juni

10:36

10:36 Verktøy · Lenke · OpenClaw Chronicles

OpenClaw v2026.5.22 gjør modell-listing 4100 ganger raskere

10:20

10:20 Verktøy · Lenke · AppleInsider

Google AI Edge Gallery kjører Gemma-modeller lokalt på Mac

10:10

10:10 Modell · 2 min · Google Blog

Gemma 4 får QAT-kvantisering: E2B-modellen krymper til 1 GB minne

Torsdag 21. mai

18:13

18:13 Modell · 1 min · CIO Influence

Cohere slipper Command A+: åpen MoE-modell for suveren infrastruktur

10:13

10:13 Verktøy · Lenke · XDA Developers

AMD Ryzen AI Halo: kompakt arbeidsstasjon med opptil 192 GB minne for lokale LLM-er

10:13

10:13 Modell · 2 min · MarkTechPost

NVIDIA slipper Nemotron-Labs-Diffusion: én modell med tre dekodingsmoduser fra 3B til 14B

02:20

02:20 Modell · Lenke · TechCrunch

Stability AI slipper Stable Audio 3.0 med små modeller for lyd på enheten

02:18

02:18 Verktøy · Lenke · Ollama (GitHub)

Ollama v0.30 går over til native llama.cpp i stor arkitekturendring

Onsdag 20. mai

14:20

14:20 Verktøy · 2 min · GitHub

Forge: guardrails løfter selvhostet 8B-modell fra 53 til 99 prosent på agent-eval

Tirsdag 19. mai

15:24

15:24 Forskning · 3 min · Startup Fortune

llama.cpp dobler Qwen3.6 27B med Multi-Token Prediction: 7,4 til 18,1 t/s på Strix Halo

Fredag 15. mai

18:17

18:17 Verktøy · Lenke · Open Source For You

Kimi WebBridge: Moonshot AI gjør åpen modell til lokal nettleser-operatør

14:21

14:21 Verktøy · 2 min · MarkTechPost

Supertonic 3: 31 språk, 99M parametre og 404 MB ONNX som kjører på e-blekk

Onsdag 13. mai

18:32

18:32 Modell · 2 min · xix.ai

Ant Groups F2LLM-v2: åpen flerspråklig embedding-modell i full skala

18:29

18:29 Verktøy · 2 min · NVIDIA Blog

Hermes Agent passerer 140 000 stjerner: selv-utviklende lokal agent kjører på RTX og DGX Spark

14:23

14:23 Modell · 3 min · GitHub (cactus-compute)

Needle: 26M-modell distillert fra Gemini 3.1 kan finjusteres lokalt på Mac og PC

10:34

10:34 Forskning · 3 min · Hugging Face

Lokale åpne modeller dobler intelligens hver 10. måned: 4,7x på to år, uendret laptop

Tirsdag 12. mai

18:27

18:27 Sikkerhet Viktig · 3 min · Security Boulevard

Bleeding Llama: kritisk Ollama-svakhet lekker minneinnhold fra 300 000 servere

18:16

18:16 Sikkerhet · 2 min · Dark Reading

Én linje i tokenizer.json kan kapre KI-modeller hentet fra Hugging Face

Mandag 11. mai

22:18

22:18 Verktøy · 3 min · jola.dev

Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart

14:36

14:36 Verktøy · 2 min · LavX News

Fedora og Ubuntu legger lokal KI inn i standarddistribusjonen

06:18

06:18 Verktøy · Lenke · XDA Developers

Qwen 2.5 på NAS dekker smarthjem-automatisering uten Claude

02:12

02:12 Verktøy · Lenke · unix.foo

Brutalist Report-utvikler: stopp å lime KI-chat på alt, bruk Apples on-device-modell

Søndag 10. mai

18:33

18:33 Verktøy · 3 min · Hackaday

Brukt server-GPU til 200 dollar kjører LLM bedre enn RTX 3060

18:30

18:30 Sikkerhet · 2 min · CSO Online

Kritisk Ollama-feil lekker minne fra 300 000 selvhostede servere

10:11

10:11 Sikkerhet · 2 min · Tweaktown

Google Chrome laster stille ned 4 GB Gemini Nano-modell uten samtykke

02:17

02:17 Sikkerhet · 3 min · Cyera Research

Kritisk minnelekkasje i Ollama eksponerer 300.000 servere (CVE-2026-7482)

Lørdag 9. mai

22:10

22:10 Verktøy · 2 min · knightli.com

Ubuntu satser på lokal inferens og opt-in: Canonical legger KI-funksjoner til 26.10

06:35

06:35 Modell · 2 min · Gizmochina

Xiaomi åpner OmniVoice: TTS-modell med stemmekloning på flere hundre språk og enklere arkitektur

Fredag 8. mai

18:29

18:29 Modell · 3 min · dev.to

llama.cpp støtter nå Xiaomis MiMo-V2.5 Sparse MoE: 310 milliarder parametere lokalt

18:28

18:28 Sikkerhet · 3 min · Cyber Security News

«Bleeding Llama»: Ollama-feil eksponerer 300 000 servere. Tre API-kall henter prompts og miljøvariabler

14:12

14:12 Bransje · 2 min · Tom's Hardware

Hovedkortsalget faller 28 prosent: KI-fabrikker spiser komponentene du trenger til lokale modeller

06:30

06:30 Sikkerhet · 2 min · The Register

Chrome installerer 4 GB Gemini Nano lokalt uten samtykke. Filen kommer tilbake hvis du sletter den

Torsdag 7. mai

22:16

22:16 Verktøy · 2 min · GitHub (Blaizzy/mlx-vlm)

mlx-vlm v0.5.0: kontinuerlig batching, MTP-spekulering og Gemma 4-video på Apple Silicon

22:13

22:13 Verktøy · 2 min · GitHub (antirez/ds4)

antirez slipper ds4: dedikert Metal-motor for DeepSeek V4 Flash, 2-bit kvantisering, KV-cache på SSD

14:27

14:27 Modell · 2 min · Belitsoft

Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten

10:18

10:18 Modell · 2 min · Third News

Zyphras ZAYA1-8B aktiverer mindre enn 1 milliard parametre per token og matcher 119B-modeller

06:23

06:23 Sikkerhet Viktig · 2 min · CVE Feed

Ollama CVE-2026-7482: GGUF-fil lekker minne fra 300 000 servere, fiks i v0.17.1

02:24

02:24 Sikkerhet · 2 min · Security Affairs

Lightning v2.6.3 spredte ShaiWorm: PyPI-import startet 11,4 MB credential stealer via Bun

Onsdag 6. mai

22:32

22:32 Verktøy · 2 min · GitHub: localai-org/vibevoice.cpp

vibevoice.cpp: Microsofts VibeVoice kjører nå lokalt på llama.cpp-stacken via ggml

22:32

22:32 Verktøy · 2 min · Ollama / GitHub Releases

Ollama v0.23.1: Gemma 4 MTP gir over 2x fart på Mac for kodingsoppgaver

18:57

18:57 Verktøy · 2 min · Basic Tutorials

QNAP slipper QAI-h1290FX: 16-kjerners EPYC, RTX-GPU og 12 NVMe-spor for lokale LLM-er til 19 000 euro

18:43

18:43 Verktøy · 2 min · Frontier Wisdom

Unsloth slipper Anthropic-kompatibel API for lokale Qwen og Gemma

02:16

02:16 Verktøy · 2 min · DEV Community

Tinkerer presser Qwen3-Coder 30B inn i 8 GB VRAM med 262K-kontekst — beskriver hver flaskehals

02:15

02:15 Verktøy · 2 min · DEV Community

Qwen3.6-35B kjører på Mac med 48 GB RAM på 77 tokens/sekund — komplett MLX-oppskrift

Tirsdag 5. mai

22:51

22:51 Verktøy · 2 min · Google

Gemma 4 får MTP-drafters: opp til 3x raskere lokal inferens uten kvalitetstap

22:26

22:26 Sikkerhet · 2 min · Help Net Security

Striga finner to upatchede CVE-er i Ollamas Windows-klient som lar angripere plante en stille innloggings-RCE

22:24

22:24 Sikkerhet Viktig · 2 min · SecurityWeek

Bleeding Llama: kritisk Ollama-feil eksponerer prompts og API-nøkler i 300 000 selvhostede oppsett

18:24

18:24 Verktøy · 2 min · DEV Community

Llama.cpp får MTP-beta og Sentinel kommer som lokal-først kodeeditor på toppen av Ollama

14:10

14:10 Sikkerhet · 2 min · That Privacy Guy

Chrome dytter en 4 GB Gemini Nano-modell ned på maskinen din uten å spørre, og laster den ned igjen hvis du sletter

06:27

06:27 Verktøy · 2 min · Ollama

Ollama v0.23.0 åpner Claude Desktop mot lokale modeller med «ollama launch claude-desktop»

Søndag 3. mai

18:13

18:13 Modell · Lenke · DataLearner AI

Qwen3-TTS: Alibabas åpne talesyntese-modeller er ute — ned til 0,6B parametere

10:08

10:08 Verktøy · 3 min · The Register

The Register: Slik kjører du Claude Code mot en lokal Qwen3.6-modell og dropper token-regningen

Lørdag 2. mai

10:16

10:16 Verktøy · 2 min · XDA Developers

En uke uten Claude Pro: lokal Qwen 3.5 9B taklet alt unntatt render-panelet

02:11

02:11 Verktøy · Lenke · Linuxiac

Calibre 9.8: e-boklesleren støtter alle lokale OpenAI-kompatible KI-leverandører

Fredag 1. mai

18:29

18:29 Verktøy · Lenke · openwarp.zerx.dev

OpenWarp: AGPL-fork av Warp lar deg koble til DeepSeek, Anthropic og Ollama lokalt

18:18

18:18 Verktøy · 2 min · github.com/intel

Intel auto-round v0.12.3: kvantiserer LLM til 2–4 bit på CPU og GPU med vLLM- og SGLang-støtte

Torsdag 30. april

06:13

06:13 Verktøy · 3 min · Lemonade GitHub Releases

Lemonade v10.3: én lokal OpenAI-API for tekst, bilder og tale i 10x mindre app

02:18

02:18 Modell · 2 min · BigGo Finance

Tencent slipper Hunyuan-MT i 1,25-bit kvantisering: 33 språk i 440 MB som kjører offline på telefon

Onsdag 29. april

22:09

22:09 Verktøy · 2 min · SD Times

Anaconda Desktop i beta: lokal LLM-inferens og conda samlet i ett vindu

14:08

14:08 Verktøy · 3 min · XDA Developers

Home Assistant med Qwen3 lokalt slår Googles Gemini for Home, også når kommandoen er tvetydig

13:06

13:06 Modell · 2 min · The Next Web

Nvidia Nemotron 3 Nano Omni: 30B parametere, 3B aktive, multimodal modell for én GPU

10:10

10:10 Modell · 2 min · Poolside

Poolside slipper Laguna XS.2 åpent: 33B MoE med 3B aktive, Apache 2.0 og signal om mer åpenhet

Tirsdag 28. april

18:09

18:09 Modell · 2 min · The AI Insider

LittleLamb: Multiverse komprimerer Qwen3-0.6B med 50 % og slår originalen på HLE

10:10

10:10 Modell · 3 min · Hugging Face

Xiaomi slipper MiMo-V2.5-Pro under MIT: 1,02 billioner parametere MoE med 1M-token kontekst

Mandag 27. april

14:08

14:08 Sikkerhet · 2 min · B2B Daily

CVE-2026-33626: SSRF i LMDeploy ble utnyttet på 12 timer og gir tilgang til cloud-metadata

02:13

02:13 Verktøy · 2 min · Startup Fortune

Pocket LLM v1.5.0 kjører multimodal KI på Android uten internett

Søndag 26. april

14:14

14:14 Sikkerhet · Lenke · OffSeq Threat Radar

Ollama opp til versjon 0.20.2 har path traversal-sårbarhet — CVE-2026-7020

Onsdag 22. april

22:13

22:13 Modell · 2 min · Qwen Blog

Qwen3.6-27B slår Claude Opus på flere kode-benchmarks — åpen og lokal

06:11

06:11 Modell · 2 min · Decrypt

«Frankenstein»-modell stabler Claude Opus, GLM og Qwen: slår 35B på 9,2 GB VRAM

Tirsdag 21. april

06:15

06:15 Forskning · 2 min · PrismML

Ternary Bonsai kjører 8B-modell på 1,58 bits — 82 tokens/sek på M4 Pro uten GPU

02:15

02:15 Sikkerhet · 2 min · Real Hacker News

SGLang har kritisk RCE-sårbarhet CVE-2026-5760: Ondsinnede GGUF-filer kjører Python på serveren (CVSS 9,8)

Mandag 20. april

18:13

18:13 Bransje · Lenke · The Verge

RAM-mangelen kan vare til 2030 — lokal inferens blir dyrere lenge

06:07

06:07 Verktøy · 2 min · Hacker News / Show HN

TRELLIS.2 kjører bilde-til-3D på M4 Pro: 424 000 vertekser på 3,5 minutter uten Nvidia

02:09

02:09 Verktøy · 2 min · Startup Fortune

llama.cpp fletter inn spekulativ sjekkpunkting: 40 prosent mindre VRAM, 20 prosent flere tokens

Søndag 19. april

22:10

22:10 Verktøy · 2 min · Hacker News / Show HN

Gemma 4 kjører i Chrome med WebGPU: prompt-til-Excalidraw i nettleseren, 3 GB RAM

06:20

06:20 Verktøy Viktig · 2 min · MakeUseOf

Google Gemma 4 er ute: Apache-lisens og MoE som kjører i 4B-fart

Fredag 17. april

22:15

22:15 Verktøy · 2 min · Hugging Face

Qwen3.6-35B-A3B: Alibaba slipper MoE-modell med 35 mrd parametere der bare 3 mrd er aktive

02:24

02:24 Verktøy · 3 min · Phoronix

Mozilla lanserer Thunderbolt — åpen kildekode KI-klient med MCP- og ACP-støtte

Torsdag 16. april

22:19

22:19 Forskning · 2 min · Simon Willison

21GB Qwen3.6 på en laptop tegnet bedre pelikan enn Claude Opus 4.7

18:23

18:23 Verktøy · 2 min · CnTechPost

Baidu open-sourcer Ernie-Image: 8 milliarder parametere kjører på 24 GB VRAM

18:18

18:18 Verktøy · 3 min · Darkbloom via HN

Darkbloom kutter inferens-prisen 50 prosent ved å kjøre på ledige Mac-er

09:25

09:25 Verktøy · 2 min · GizmoWeek

Gemma 4 kjører nå fullt offline på iPhone — E2B-varianten anbefalt for mobilbruk

Onsdag 15. april

16:10

16:10 Verktøy · Lenke · GizmoWeek

Google Gemma 4 kjører direkte på iPhone med full offline-inferens

09:05

09:05 Verktøy · 1 min · AMD

AMD lanserer GAIA — open source-rammeverk for KI-agenter på lokal maskinvare

Tirsdag 14. april

04:13

04:13 Verktøy · Lenke · Hacker News

Slik kjører du Gemma 4 lokalt i Codex CLI

Mandag 13. april

20:16

20:16 Bransje · Lenke · EE Times

ROCm tar opp kampen mot CUDA: AMD satser steg for steg

14:17

14:17 Verktøy · Lenke · Gigazine

Microsoft Foundry Local: kjør Qwen og Whisper lokalt uten skytilkobling

Torsdag 9. april

08:03

08:03 Verktøy · Lenke · GitHub / Hacker News

Finjuster Gemma 4 multimodalt på Apple Silicon — uten sky eller NVIDIA

Tirsdag 7. april

10:25

10:25 Verktøy · Lenke · XDA Developers

Spekulativ dekoding gjør lokale LLM-er raskere uten maskinvareoppgradering

Mandag 6. april

12:14

12:14 Verktøy · Lenke · George Liu AI

Kjør Gemma 4 lokalt med LM Studios nye headless CLI

08:17

08:17 Verktøy · 1 min · iXBT

Arcee AI lanserer Trinity-Large-Thinking: åpen resonneringsmodell med 399 milliarder parametere

Søndag 5. april

20:14

20:14 Sikkerhet · Lenke · Bitcoin News

Vitalik Buterin dropper sky-KI helt — deler sin lokale LLM-stack

16:12

16:12 Verktøy · Lenke · Ubergizmo

Google lanserer Gemini Nano 4 for lokal KI på Android

08:17

08:17 Forskning · Lenke · The Register

Caltech-startup slipper 1-bit LLM som er 14 ganger mindre og kjører på iPhone

00:14

00:14 Verktøy · Lenke · AI-trends.today

Arcee AI slipper Trinity Large Thinking: Apache 2.0 resonneringsmodell for langsiktige agenter

Lørdag 4. april

14:46

14:46 Verktøy · Lenke · Gigazine

mesh-llm: kjør store KI-modeller fordelt over vanlige PCer i nettverket

14:44

14:44 Verktøy · 1 min · Ars Technica

Google Gemma 4: fire open-source-modeller med Apache 2.0-lisens

Torsdag 2. april

12:50

12:50 Verktøy · Lenke · LocalLlama

SmolLM2 kjører på en Samsung Galaxy Watch med 380 MB RAM

12:50

12:50 Forskning · Lenke · LocalLlama

#lokale-modeller

I dag · tirsdag 21. juli

Nvidia lar KI-agenter kjøre lokalt på DGX Station

Ollama henter 65 millioner dollar til lokal KI

Ollama-forhåndsversjon gir CLI-agenten et skills-system

I går · mandag 20. juli

Bouncer skiller KI-tekst fra menneskeskrevet med egen detektormodell på enheten

Bonsai 27B kjører 27 milliarder vekter på iPhone i 3,9 GB

VideoChat3 slår GPT-5 på tidsforankring i video med 4B parametere

Headroom måler GPU-taket ditt for lokale modeller på 30 sekunder

Åpne modeller er nå fire til sju måneder bak på cyberangrep

Bouncer filtrerer X-feeden din med en modell i nettleseren

Søndag 19. juli

Current AI bygger åpen, offentlig KI-infrastruktur med 400 mill. dollar

PrismML klemmer en 27 milliarder-parameter KI-modell ned til under 4 GB for iPhone

Lørdag 18. juli

AMD slipper Lemonade 11.0: lokal KI-server med tekst-til-tale

LM Studios Bionic deler kodejobben mellom lokal og sky-KI

Bonsai 27B krymper Qwen3.6 til 3,9 GB og kjører på iPhone uten sky

NVIDIA slipper Nemotron 3 Embed: åpen embedding-modell topper RTEB

Fredag 17. juli

Hjemmedatamaskin fra 2019 trente en generativ KI-modell for kick-trommer

AMD ROCm 7.14 bytter til TheRock byggesystem for lokal KI

LM Studio lanserer Bionic: KI-agent for lokale og åpne modeller

Apple vurderer PrismMLs komprimeringsteknologi for større KI-modeller på iPhone

Torsdag 16. juli

Gemma 4 oppdateres med FlashAttention 4, bedre verktøykall og skarpere OCR

Onsdag 15. juli

KronQ får 2-bit-modeller til å virke der GPTQ kollapser

llama.cpp får 4,26x raskere prefill på Intel Arc, men bare i et smalt tilfelle

PrismML Bonsai 27B: 1-bit og ternære versjoner av Qwen3.6-27B kjører på laptop og telefon

Tirsdag 14. juli

Hugging Face-sjefen: frontier-modellene blir for eksperimenter, produksjonen kjører på åpne vekter

Kjør Qwen3.6 2,5x raskere lokalt med Unsloth NVFP4

Ollama 0.32 gjør kommandolinja til en agent, med skymodell som standard

Mandag 13. juli

Tysk konsortium slipper åpen 30B-modell: Soofi S aktiverer bare 3,2 milliarder parametre per token

Selvhostet SearXNG gir lokale KI-modeller websøk uten API-nøkler

vLLM 0.25 sletter PagedAttention og fjerner seks modellfamilier

21 Docker-containere uten dokumentasjon: Gemma 4 skrev wikien på en time, men droppet fire tjenester

Søndag 12. juli

M7 Ultra kan få 1,5 TB RAM, arven fra Apples døde bilprosjekt

Han fikk Claude til å skrive sin egen erstatning: llama.cpp og en Python-løkke

Mesh LLM deler modellen lag for lag over flere maskiner via iroh og QUIC

Utvikler fikset tre cache-bugs og kuttet prefill fra 88 sekunder til 0,64 på Mac Studio

Zed 1.10 kjører KI-agenten mot lokal llama.cpp, uten at koden forlater maskinen

Unsloths NVFP4-quants kjører Qwen3.6 2,5x raskere, men bare på Blackwell

Gemma 4 kjører syn, tale og 256K kontekst lokalt på 8 GB VRAM

Colibrì kjører GLM-5.2 med 744 milliarder parametre på 25 GB RAM

Utvikler kuttet TTFT 9,9x på Android ved å gjenbruke llama.cpp KV-state

Reame: åpen LLM-inferensserver som blir raskere jo mer den kjører

Lørdag 11. juli

Nvidia dropper draft-modellen i spekulativ dekoding med nye Nemotron-vekter

Qualcomm: KI-agenter vil selv avgjøre om jobben kjører i sky eller på enhet

Fransk startup ZML lanserer gratis inferensplattform på tvers av brikkeleverandører

Byttet ut Gemma 4 med en to år gammel kode-LLM, fikk et bedre lokalt KI-oppsett

Ollama henter 65 millioner dollar mens utviklere velger lokal KI

Fredag 10. juli

Colibri kjører GLM 5.2 på 25 GB RAM ved å streame eksperter fra disk

Ollama 0.32.0-rc0 legger til «ollama agent», et terminalgrensesnitt for agent-kjøring

PrismML sier de kjører Qwen 3.6 med 27 milliarder parametere på iPhone 17 Pro, åpen kildekode 14. juli

Torsdag 9. juli

Komprimert Nemotron kjører åtte 1M-forespørsler på én H100

Ollama henter 65 millioner dollar og passerer 8,9 millioner utviklere i måneden

Onsdag 8. juli

Ollama v0.31.2-rc2: ny agent-kjøreramme og ROCm-endringer

Unsloth v0.1.48-beta: automatisk modellbytte gjør verktøyet til en full llama-swap-erstatning

AMD lanserer Ryzen AI Halo-arbeidsstasjon på 3999 dollar for lokal KI

Tirsdag 7. juli

Små KI-modeller vinner frem der nettet er upålitelig og datasentre mangler

Søndag 5. juli

mlx-dspark: uavhengig utvikler porterte DeepSeeks DSpark til Apple Silicon

Lørdag 4. juli

Program-as-Weights: en 0,6B-modell matcher 32B ved å kompilere oppgavelogikk til vekter

Ny arkitektur Wiola skal gjøre små språkmodeller mer effektive

GLM-5.2 kjører 2626 tokens/sek per node på AMD MI355X til under halve Blackwell-prisen

Program-as-Weights: 23 MB lokal modell skal matche en 32B på enkeltoppgaver

Fredag 3. juli

Guide til å bygge og kjøre toppmoderne språkmodeller lokalt

WebBrain: åpen kildekode nettleser-agent som kjører helt lokalt