#ytelse

00:22

00:22 Modell · Lenke · The Decoder

Googles «Frozen v2»-brikke støper Gemini-arkitekturen inn i silisium

00:16

00:16 Verktøy · 2 min · JetBrains Blog

JetBrains målte rtk-tokenkutt: lovde 60-90 prosent, ble dyrere

I går · mandag 20. juli

04:13

04:13 Verktøy · 3 min · Hacker News

Headroom måler GPU-taket ditt for lokale modeller på 30 sekunder

00:16

00:16 Verktøy · Lenke · Hacker News - Newest: ""AI" "LLM" "Claude""

Claude Code har kjørt Bun skrevet i Rust siden juni

Søndag 19. juli

13:01

13:01 Forskning · 2 min · Tech Times

PrismML klemmer en 27 milliarder-parameter KI-modell ned til under 4 GB for iPhone

Lørdag 18. juli

04:18

04:18 Modell · Lenke · DEV Community

Unsloth slipper Qwen3.6-27B i NVFP4 med 2,5x raskere gjennomstrømning

Fredag 17. juli

12:27

12:27 Verktøy · 2 min · GitHub

AMD ROCm 7.14 bytter til TheRock byggesystem for lokal KI

04:27

04:27 Bransje · 2 min · WinBuzzer

Apple vurderer PrismMLs komprimeringsteknologi for større KI-modeller på iPhone

Onsdag 15. juli

22:50

22:50 Forskning · 2 min · Hugging Face - Blog

IBM: GPT-4.1 kostet dobbelt av Claude Sonnet i agent-test, tross lavere pris

16:26

16:26 Forskning · Lenke · TECHi

llama.cpp får 4,26x raskere prefill på Intel Arc, men bare i et smalt tilfelle

00:14

00:14 Verktøy · Lenke · Simon Willison's Weblog

Lobsters kjører nå på SQLite: 3,8 GB database på én enkelt VPS

Tirsdag 14. juli

16:24

16:24 Modell · 2 min · Baseten

StepFun slipper Step 3.7 Flash: 198 milliarder parametre på fire H100-kort

06:42

06:42 Verktøy · 2 min · Release notes from claude-code

Claude Code 2.1.208 tetter minnelekkasjer og krymper transkripsjoner opptil 79 ganger

Mandag 13. juli

11:23

11:23 Forskning · 2 min · Ganesh Nanduru (personlig blogg)

Enkeltutvikler slipper åpne treningskjerner for MiniMax sparse attention

04:24

04:24 Verktøy · 3 min · Ploy

Ploy bytter fra Claude Opus til GPT-5.6 Sol: 2,2x raskere og 27 prosent billigere i produksjon

02:42

02:42 Forskning · 2 min · groundtruth.day

NVIDIAs Puzzle krymper 120B-modellen til 75B og dobler gjennomstrømningen

Søndag 12. juli

20:28

20:28 Bransje · Lenke · AI | The Verge

M7 Ultra kan få 1,5 TB RAM, arven fra Apples døde bilprosjekt

12:34

12:34 Verktøy · 2 min · Archynewsy

NVIDIA Vera satser på enkelttråd-fart: 1,8 ganger x86-ytelse per kjerne i agent-løkker

08:28

08:28 Verktøy · 3 min · Andryo Marzuki

Utvikler fikset tre cache-bugs og kuttet prefill fra 88 sekunder til 0,64 på Mac Studio

04:18

04:18 Forskning · 2 min · DEV Community

Utvikler kuttet TTFT 9,9x på Android ved å gjenbruke llama.cpp KV-state

Lørdag 11. juli

16:37

16:37 Forskning · 2 min · byteiota

Nvidia dropper draft-modellen i spekulativ dekoding med nye Nemotron-vekter

12:31

12:31 Verktøy · 2 min · TechAmerica.ai

Fransk startup ZML lanserer gratis inferensplattform på tvers av brikkeleverandører

Fredag 10. juli

20:14

20:14 Forskning · 2 min · Chutes

Chutes trente en rekurrent modell desentralisert uten synkroniseringsstopp

16:28

16:28 Verktøy · 3 min · Ello

Ello kastet standard agent-løkke for å holde svartiden under ett sekund

10:46

10:46 Verktøy · 2 min · Hugging Face - Blog

Hugging Face profilerer attention: math-backenden er 3,7 ganger tregere enn naiv PyTorch-kode

00:53

00:53 Bransje · 2 min · AI News & Artificial Intelligence | TechCrunch

Nvidia falt 15 prosent mens Micron nesten tredoblet seg: minne er den nye flaskehalsen

00:41

00:41 Verktøy · 2 min · Google Developers Blog

Google slipper LiteRT.js: kjør .tflite-modeller i nettleseren opptil 3x raskere

Torsdag 9. juli

20:50

20:50 Modell · 2 min · MarkTechPost

Komprimert Nemotron kjører åtte 1M-forespørsler på én H100

04:33

04:33 Verktøy · 2 min · NVIDIA Blog

LangChain: Nemotron 3 Ultra matcher lukkede modeller til en tidel av prisen

00:24

00:24 Modell · 3 min · The Decoder

Grok 4.5: åtte ganger billigere enn Fable 5, 17 poeng svakere på DeepSWE

Onsdag 8. juli

20:24

20:24 Modell · Lenke · The Decoder

Claude Fable 5 topper alle åtte industri-benchmarks, til over 100 ganger prisen

10:39

10:39 Verktøy · Lenke · AI News & Artificial Intelligence | TechCrunch

ZML slipper gratis inference-server som kjører på fem brikkefamilier

00:38

00:38 Verktøy · Lenke · LavX News

AMD lanserer Ryzen AI Halo-arbeidsstasjon på 3999 dollar for lokal KI

Tirsdag 7. juli

20:20

20:20 Modell · 3 min · IT Brief UK

Sber slipper GigaChat 3.5 Ultra som open source: 432B MoE med lineær oppmerksomhet

04:23

04:23 Verktøy · 2 min · Kapa.ai

Kapa.ai kutter 68 prosent av RAG-konteksten uten å miste svar-treffsikkerhet

02:55

02:55 Modell · 1 min · Hugging Face

Tencent slipper Hy3 under Apache 2.0: 295 milliarder parametre, slår GLM-5.1 i egen blindtest

Mandag 6. juli

16:42

16:42 Bransje · Lenke · The Decoder

Nvidias Kyber NVL144 utsatt til 2028, asiatiske leverandører faller

12:27

12:27 Verktøy · 2 min · Edgee

Compressor V2 kutter KI-agent-kostnader med 50 prosent via tre komprimeringslag

08:13

08:13 Verktøy · 3 min · Hugging Face - Blog

Hugging Face Kernels laster nå bare betrodde utgivere som standard

Søndag 5. juli

12:38

12:38 Modell · 1 min · Tech Times

Poolside Laguna XS 2.1: gratis kodemodell med DFlash som kjører på én GPU

12:37

12:37 Verktøy · 1 min · 36Kr (QbitAI)

mlx-dspark: uavhengig utvikler porterte DeepSeeks DSpark til Apple Silicon

Lørdag 4. juli

16:19

16:19 Modell · Lenke · Federico Cutroni

Cerebras kjører Kimi K2.6 nesten 7x raskere enn beste GPU-sky for agentisk koding

12:46

12:46 Forskning · Lenke · arXiv

Program-as-Weights: en 0,6B-modell matcher 32B ved å kompilere oppgavelogikk til vekter

12:40

12:40 Forskning · Lenke · MarkTechPost

NVIDIA ASPIRE: robotrammeverk som forbedrer seg selv, treffer 31 prosent på lange LIBERO-Pro-oppgaver

04:20

04:20 Forskning · 1 min · Wafer AI

GLM-5.2 kjører 2626 tokens/sek per node på AMD MI355X til under halve Blackwell-prisen

00:18

00:18 Bransje · 2 min · Let's Data Science

PagerDuty-toppsjef advarer: KI-agenter feiler stille, ikke med et krasj

Fredag 3. juli

20:22

20:22 Verktøy · 2 min · GitHub (pxpipe)

pxpipe kutter Claude Code-kostnaden ved å rendre kontekst som bilder

12:26

12:26 Modell · 2 min · MarkTechPost

Interfaze åpner diffusjonsbasert talegjenkjenning for seks språk

Torsdag 2. juli

08:30

08:30 Modell · Lenke · DataCentreNews UK

Nvidia kutter token-kostnaden for DeepSeek V4 med opptil 5x gjennom programvareoptimalisering

08:20

08:20 Forskning · Lenke · AIJourn

STAR-KV komprimerer KV-cache opptil 20x, valgt som ICML 2026-spotlight-artikkel

Onsdag 1. juli

20:22

20:22 Forskning · 2 min · The Register

SEMQ-metoden kutter minnebruk for KI-modeller uten å tape nøyaktighet

16:22

16:22 Modell · 2 min · MarkTechPost

NVIDIA slipper Nemotron-Labs-TwoTower: diffusjonsmodell med dobbel gjennomstrømning

14:50

14:50 Verktøy · 2 min · LavX News

ZLUDA 6 bringer CUDA-kompatibilitet til AMD GPU-er

08:26

08:26 Verktøy · 1 min · TechCrunch

Google lanserer Nano Banana 2 Lite: raskere og rimeligere bildegenerering

06:46

06:46 Forskning · 2 min · The Decoder

DeepSeek slipper DSpark: opptil 85 prosent raskere inferens under strammere eksportkontroll

06:45

06:45 Forskning · Lenke · Hacker News - Newest: ""AI" "LLM" "Claude""

Sophon PFG-1: foreslått KI-brikke med 330 GB DRAM on-die og null HBM

04:50

04:50 Bransje · Lenke · AI News & Artificial Intelligence | TechCrunch

Nvidia-utfordrer Etched til 5 mrd dollar med inference-brikke og 1 mrd dollar i ordre

02:54

02:54 Modell · Lenke · Hacker News - Newest: ""AI" "LLM" "Claude""

Claude Sonnet 5: benchmark-resultater

Tirsdag 30. juni

08:21

08:21 Forskning · 2 min · TechTimes

DFlash knekker spekulativ dekoding: 15x raskere inferens på Blackwell GPU-er

Mandag 29. juni

20:18

20:18 Modell · 2 min · Quesma

Qwen 3.6 27B: 27 milliarder parametre slår 397 milliarder på koding

16:25

16:25 Modell · Lenke · MarkTechPost

Liquid AI sender LFM2.5-230M: liten modell kjører lokalt via llama.cpp, MLX og vLLM

16:20

16:20 Modell · Lenke · HTX Insights

DeepSeek V4 DSpark: ny spekulativ dekodingsramme øker inferenshastigheten med 80 prosent

04:19

04:19 Modell · 2 min · TechTimes

NVIDIA Vera Rubin tredobler minnebåndbredden mot Blackwell og kutter tokenkostnad ti ganger

Søndag 28. juni

22:48

22:48 Forskning · 2 min · MarkTechPost

DeepSeek åpner DSpark: spekulativ dekoding gir 60 til 85 prosent raskere V4-inferens

Søndag 14. juni

18:20

18:20 Verktøy · 2 min · VideoCardz

AMD Ryzen AI Halo-PC med 128 GB minne nå tilgjengelig for 3 999 dollar

12:04

12:04 Modell · 2 min · MarkTechPost

Zyphra slipper Zamba2-VL: hybrid Mamba2-modell kutter tid til første token med rundt ti ganger

11:59

11:59 Forskning · Lenke · Wccftech

NVIDIA GB300 håndterer 61 000 KI-agenter per megawatt, 20 ganger Hopper, i ny benchmark

Tirsdag 9. juni

18:39

18:39 Modell · 2 min · MarkTechPost

Xiaomi MiMo og TileRT presser en billionparameter-modell forbi 1000 tokens per sekund på vanlige GPU-er

Tirsdag 19. mai

22:21

22:21 Modell · 2 min · Ars Technica

Gemini 3.5 Flash: 300 tokens i sekundet med frontier-ytelse og Omni do-anything-modell

15:24

15:24 Forskning · 3 min · Startup Fortune

llama.cpp dobler Qwen3.6 27B med Multi-Token Prediction: 7,4 til 18,1 t/s på Strix Halo

Torsdag 14. mai

22:22

22:22 Modell · 2 min · Crypto Briefing

OpenAI lanserer GPT-5.3-Codex-Spark: første produkt på Cerebras-maskinvare

14:34

14:34 Forskning · 3 min · aiHola

Coding Agent Index: Cursor CLI med Opus 4.7 topper første tverr-stack-benchmark

Onsdag 13. mai

18:28

18:28 Modell · 2 min · VentureBeat

Perceptron Mk1: video-analyse 80 til 90 prosent billigere enn Anthropic, OpenAI og Google

Mandag 11. mai

22:18

22:18 Verktøy · 3 min · jola.dev

Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart

18:14

18:14 Forskning · 3 min · MarkTechPost

Sakana og NVIDIA gjør LLM-inferens 20,5 prosent raskere med TwELL: ren CUDA, ingen arkitekturendring

Søndag 10. mai

18:33

18:33 Verktøy · 3 min · Hackaday

Brukt server-GPU til 200 dollar kjører LLM bedre enn RTX 3060

Lørdag 9. mai

14:16

14:16 Modell · 2 min · CnTechPost

Baidu lanserer Ernie 5.1: pretrening koster 6 prosent av tilsvarende modeller

06:36

06:36 Verktøy · 2 min · Modular

Modular slipper Mojo 1.0 Beta: Python-syntaks med C++-ytelse og GPU-kjerner i ett språk

Fredag 8. mai

14:12

14:12 Bransje · 2 min · Tom's Hardware

Hovedkortsalget faller 28 prosent: KI-fabrikker spiser komponentene du trenger til lokale modeller

02:16

02:16 Verktøy · 3 min · InfoQ

OpenAI bytter Responses API til WebSocket: 40 prosent kortere agent-latens i Vercel, Cline og Cursor

Torsdag 7. mai

22:16

22:16 Verktøy · 2 min · GitHub (Blaizzy/mlx-vlm)

mlx-vlm v0.5.0: kontinuerlig batching, MTP-spekulering og Gemma 4-video på Apple Silicon

22:13

22:13 Verktøy · 2 min · GitHub (antirez/ds4)

antirez slipper ds4: dedikert Metal-motor for DeepSeek V4 Flash, 2-bit kvantisering, KV-cache på SSD

14:27

14:27 Modell · 2 min · Belitsoft

Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten

10:23

10:23 Modell · Lenke · Winbuzzer

OpenAI gjør GPT-5.5 Instant til ny standardmodell, hevder over 50 prosent færre hallusinasjoner

10:16

10:16 Verktøy · 2 min · InfoQ

Google deler TPU 8 i to varianter: 9 600 brikker per superpod for trening, 288 GB minne per chip for agent-inferens

Onsdag 6. mai

22:32

22:32 Verktøy · 2 min · Ollama / GitHub Releases

Ollama v0.23.1: Gemma 4 MTP gir over 2x fart på Mac for kodingsoppgaver

18:44

18:44 Forskning · 2 min · Reflex Blog

Computer-use 45 ganger dyrere enn struktur-API i Reflex-benchmark

Tirsdag 5. mai

22:51

22:51 Verktøy · 2 min · Google

Gemma 4 får MTP-drafters: opp til 3x raskere lokal inferens uten kvalitetstap

10:08

10:08 Modell · 2 min · Wccftech

NVIDIAs åpne Nemotron 3 Super topper EnterpriseOps-Gym med 27,3 poeng og slår DeepSeek og Kimi

02:09

02:09 Forskning · 2 min · OpenAI Engineering Blog

OpenAI: slik holder vi 900 millioner stemme-sesjoner i gang uten merkbar latens

Mandag 4. mai

06:25

06:25 Verktøy · 2 min · InfoQ

Cloudflare splitter LLM-prosessering i to: Infire kjører Kimi K2.5 på 8 H100-er

Lørdag 2. mai

18:12

18:12 Modell · 3 min · DeepLearning.AI The Batch

GPT-5.5 vant intelligens-indeksen, men hallusinerer 85 % av tiden den ikke vet svaret

10:16

10:16 Verktøy · 2 min · XDA Developers

En uke uten Claude Pro: lokal Qwen 3.5 9B taklet alt unntatt render-panelet

Fredag 1. mai

18:28

18:28 Modell · 2 min · dataphoenix.info

DeepSeek V4: åpen 1,6T-modell med MIT-lisens nær GPT-5.5 til en sjettedel av prisen

14:18

14:18 Modell · Lenke · Interesting Engineering

Lumai Iris Nova: optisk datamaskin kjører Llama 70B med 90 prosent mindre strøm

14:16

14:16 Forskning · 1 min · AI Pressa

Google TurboQuant: KV-cache-kompresjon kutter minnebruk 6x uten retrening

Torsdag 30. april

18:15

18:15 Verktøy · Lenke · SiliconANGLE

Runpod Flash: skriv Python lokalt, få auto-skalerende inferens-endepunkt uten Docker

Tirsdag 28. april

02:18

02:18 Verktøy · 2 min · GitHub (Show HN)

Open source-agenten Dirac topper TerminalBench 2.0 med 65,2 prosent og 64,8 prosent lavere kostnad

Søndag 26. april

10:19

10:19 Forskning · 3 min · Victor Taelin

LamBench tester KI-modeller på lambda-kalkyle — Opus 4.6 og GPT-5.3 Codex deler førsteplassen

Onsdag 22. april

22:13

22:13 Modell · 2 min · Ars Technica

Google deler TPU i to: 8t for trening, 8i for inferens, dobbel ytelse per watt

Mandag 20. april

18:13

18:13 Bransje · Lenke · The Verge

RAM-mangelen kan vare til 2030 — lokal inferens blir dyrere lenge

02:09

02:09 Verktøy · 2 min · Startup Fortune

llama.cpp fletter inn spekulativ sjekkpunkting: 40 prosent mindre VRAM, 20 prosent flere tokens

Lørdag 18. april

10:11

10:11 Forskning · Lenke · Cloudflare Research

Cloudflare komprimerer LLM-vekter tapsfritt — 2,6 bits entropi per BF16-eksponent

Fredag 17. april

22:17

22:17 Forskning · Lenke · Claude Code Camp

Opus 4.7 bruker 1,33x flere tokens enn 4.6 — måling av den nye tokenizeren

Torsdag 16. april

22:19

22:19 Forskning · 2 min · Simon Willison

21GB Qwen3.6 på en laptop tegnet bedre pelikan enn Claude Opus 4.7

Onsdag 15. april

16:10

16:10 Verktøy · Lenke · GizmoWeek

Google Gemma 4 kjører direkte på iPhone med full offline-inferens

Tirsdag 14. april

20:12

20:12 Forskning · 2 min · Artificial Analysis

Åpne modeller under 32B parametre matcher nå GPT-5-nivå ytelse

Mandag 13. april

20:16

20:16 Bransje · Lenke · EE Times

ROCm tar opp kampen mot CUDA: AMD satser steg for steg

Søndag 12. april

14:19

14:19 Verktøy · Lenke · Analytics India Magazine

NVIDIA lanserer AITune: åpen kildekode-verktøy for automatisk inferensoptimalisering

Lørdag 11. april

18:14

18:14 Verktøy · Lenke · PyShine

Google lanserer LiteRT-LM: inferens-rammeverk for LLM på kant-enheter

18:14

18:14 Verktøy · Lenke · MarkTechPost

NVIDIA lanserer AITune: velger raskeste inferens-backend automatisk

Tirsdag 7. april

10:25

10:25 Verktøy · Lenke · XDA Developers

Spekulativ dekoding gjør lokale LLM-er raskere uten maskinvareoppgradering

Mandag 6. april

20:13

20:13 Verktøy · Lenke · WinBuzzer

I dag · tirsdag 21. juli

Googles «Frozen v2»-brikke støper Gemini-arkitekturen inn i silisium

JetBrains målte rtk-tokenkutt: lovde 60-90 prosent, ble dyrere

I går · mandag 20. juli

Headroom måler GPU-taket ditt for lokale modeller på 30 sekunder

Claude Code har kjørt Bun skrevet i Rust siden juni

Søndag 19. juli

PrismML klemmer en 27 milliarder-parameter KI-modell ned til under 4 GB for iPhone

Lørdag 18. juli

Unsloth slipper Qwen3.6-27B i NVFP4 med 2,5x raskere gjennomstrømning

Fredag 17. juli

AMD ROCm 7.14 bytter til TheRock byggesystem for lokal KI

Apple vurderer PrismMLs komprimeringsteknologi for større KI-modeller på iPhone

Onsdag 15. juli

IBM: GPT-4.1 kostet dobbelt av Claude Sonnet i agent-test, tross lavere pris

llama.cpp får 4,26x raskere prefill på Intel Arc, men bare i et smalt tilfelle

Lobsters kjører nå på SQLite: 3,8 GB database på én enkelt VPS

Tirsdag 14. juli

StepFun slipper Step 3.7 Flash: 198 milliarder parametre på fire H100-kort

Claude Code 2.1.208 tetter minnelekkasjer og krymper transkripsjoner opptil 79 ganger

Mandag 13. juli

Enkeltutvikler slipper åpne treningskjerner for MiniMax sparse attention

Ploy bytter fra Claude Opus til GPT-5.6 Sol: 2,2x raskere og 27 prosent billigere i produksjon

NVIDIAs Puzzle krymper 120B-modellen til 75B og dobler gjennomstrømningen

Søndag 12. juli

M7 Ultra kan få 1,5 TB RAM, arven fra Apples døde bilprosjekt

NVIDIA Vera satser på enkelttråd-fart: 1,8 ganger x86-ytelse per kjerne i agent-løkker

Utvikler fikset tre cache-bugs og kuttet prefill fra 88 sekunder til 0,64 på Mac Studio

Utvikler kuttet TTFT 9,9x på Android ved å gjenbruke llama.cpp KV-state

Lørdag 11. juli

Nvidia dropper draft-modellen i spekulativ dekoding med nye Nemotron-vekter

Fransk startup ZML lanserer gratis inferensplattform på tvers av brikkeleverandører

Fredag 10. juli

Chutes trente en rekurrent modell desentralisert uten synkroniseringsstopp

Ello kastet standard agent-løkke for å holde svartiden under ett sekund

Hugging Face profilerer attention: math-backenden er 3,7 ganger tregere enn naiv PyTorch-kode

Nvidia falt 15 prosent mens Micron nesten tredoblet seg: minne er den nye flaskehalsen

Google slipper LiteRT.js: kjør .tflite-modeller i nettleseren opptil 3x raskere

Torsdag 9. juli

Komprimert Nemotron kjører åtte 1M-forespørsler på én H100

LangChain: Nemotron 3 Ultra matcher lukkede modeller til en tidel av prisen

Grok 4.5: åtte ganger billigere enn Fable 5, 17 poeng svakere på DeepSWE

Onsdag 8. juli

Claude Fable 5 topper alle åtte industri-benchmarks, til over 100 ganger prisen

ZML slipper gratis inference-server som kjører på fem brikkefamilier

AMD lanserer Ryzen AI Halo-arbeidsstasjon på 3999 dollar for lokal KI

Tirsdag 7. juli

Sber slipper GigaChat 3.5 Ultra som open source: 432B MoE med lineær oppmerksomhet

Kapa.ai kutter 68 prosent av RAG-konteksten uten å miste svar-treffsikkerhet

Tencent slipper Hy3 under Apache 2.0: 295 milliarder parametre, slår GLM-5.1 i egen blindtest

Mandag 6. juli

Nvidias Kyber NVL144 utsatt til 2028, asiatiske leverandører faller

Compressor V2 kutter KI-agent-kostnader med 50 prosent via tre komprimeringslag

Hugging Face Kernels laster nå bare betrodde utgivere som standard

Søndag 5. juli

Poolside Laguna XS 2.1: gratis kodemodell med DFlash som kjører på én GPU

mlx-dspark: uavhengig utvikler porterte DeepSeeks DSpark til Apple Silicon

Lørdag 4. juli

Cerebras kjører Kimi K2.6 nesten 7x raskere enn beste GPU-sky for agentisk koding

Program-as-Weights: en 0,6B-modell matcher 32B ved å kompilere oppgavelogikk til vekter

NVIDIA ASPIRE: robotrammeverk som forbedrer seg selv, treffer 31 prosent på lange LIBERO-Pro-oppgaver

GLM-5.2 kjører 2626 tokens/sek per node på AMD MI355X til under halve Blackwell-prisen

PagerDuty-toppsjef advarer: KI-agenter feiler stille, ikke med et krasj

Fredag 3. juli

pxpipe kutter Claude Code-kostnaden ved å rendre kontekst som bilder

Interfaze åpner diffusjonsbasert talegjenkjenning for seks språk

Torsdag 2. juli

Nvidia kutter token-kostnaden for DeepSeek V4 med opptil 5x gjennom programvareoptimalisering

STAR-KV komprimerer KV-cache opptil 20x, valgt som ICML 2026-spotlight-artikkel

Onsdag 1. juli

SEMQ-metoden kutter minnebruk for KI-modeller uten å tape nøyaktighet

NVIDIA slipper Nemotron-Labs-TwoTower: diffusjonsmodell med dobbel gjennomstrømning

ZLUDA 6 bringer CUDA-kompatibilitet til AMD GPU-er

Google lanserer Nano Banana 2 Lite: raskere og rimeligere bildegenerering

DeepSeek slipper DSpark: opptil 85 prosent raskere inferens under strammere eksportkontroll

Sophon PFG-1: foreslått KI-brikke med 330 GB DRAM on-die og null HBM

Nvidia-utfordrer Etched til 5 mrd dollar med inference-brikke og 1 mrd dollar i ordre

Claude Sonnet 5: benchmark-resultater

Tirsdag 30. juni