Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen

ytelse

45 SAKER INDEKSERT

[modell] 19.5., 20:21

Gemini 3.5 Flash: 300 tokens i sekundet med frontier-ytelse og Omni do-anything-modell

Google lanserte Gemini 3.5 Flash på I/O 2026 med rundt 300 tokens i sekundet og benchmark-tall på linje med Gemini 3.1 Pro som kjører i en fjerdedel av hastigheten.

[forskning] 19.5., 13:24

llama.cpp dobler Qwen3.6 27B med Multi-Token Prediction: 7,4 til 18,1 t/s på Strix Halo

llama.cpp slo sammen Multi-Token Prediction 16. mai. På AMD Strix Halo gikk Qwen3.6 27B fra 7,4 til 18,1 tokens per sekund.

[modell] 14.5., 20:22

OpenAI lanserer GPT-5.3-Codex-Spark: første produkt på Cerebras-maskinvare

OpenAI har sluppet GPT-5.3-Codex-Spark, en raskere variant av kodemodellen som er live for ChatGPT Pro og kjører utelukkende på Cerebras-maskinvare, ikke Nvidia.

[analyse] 14.5., 12:34

Coding Agent Index: Cursor CLI med Opus 4.7 topper første tverr-stack-benchmark

61 mot 60. Det er hele forspranget Cursor CLI med Claude Opus 4.7 har til OpenAIs Codex og Anthropics egen Claude Code i Artificial Analysis' nye Coding Agent Index, den første benchmarken som rangerer hele kombinasjonen av modell og agentverktøy i stedet for språkmodellen alene. Gemini CLI med Gemini 3.1 Pro kom sist på 43. Indeksen er et uvektet snitt av pass@1 over 358 oppgaver fra tre benchmarker, kjørt tre ganger, så ettpoengs-ledelsen er trolig ren støy. Det interessante skjer når modellen holdes konstant: med Opus 4.7 i begge ender slår Cursors verktøylag Anthropics eget.

[modell] 13.5., 16:28

Perceptron Mk1: video-analyse 80 til 90 prosent billigere enn Anthropic, OpenAI og Google

Perceptron lanserte i dag Mk1, en proprietær video-analysemodell på API til 0,15 dollar per million input-tokens og 1,50 dollar per million output.

[analyse] 11.5., 20:18

Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart

Qwen 3.5 9B i Q4_K_S-kvantisering klarer 40 tokens i sekundet med 128K kontekst på en M4 med 24 GB minne, og er den eneste i en ny test som virker for daglig kodearbeid.

[forskning] 11.5., 16:14

Sakana og NVIDIA gjør LLM-inferens 20,5 prosent raskere med TwELL: ren CUDA, ingen arkitekturendring

Sakana AI og NVIDIA publiserte TwELL, et nytt sparse-format med tilpassede CUDA-kjerner som gir 20,5 prosent raskere inferens og 21,9 prosent raskere trening på en 2B-modell, uten målbart nøyaktighetstap. Trikset er å pakke aktiveringssparsitet inn i samme tile-størrelse som matmul-kjernen allerede bruker, slik at Tensor Cores ikke blir tomgang.

[analyse] 10.5., 16:33

Brukt server-GPU til 200 dollar kjører LLM bedre enn RTX 3060

Hardware Haven viser hvordan en NVIDIA V100 16 GB fra 2017 kan kjøpes for rundt 100 dollar på SXM2-server-sokkel og kobles til vanlig hovedkort med en adapter til ytterligere 100 dollar. PCIe-versjonen koster typisk over 1000 dollar.

[modell] 9.5., 12:16

Baidu lanserer Ernie 5.1: pretrening koster 6 prosent av tilsvarende modeller

Baidu slipper Ernie 5.1: pretreningskostnad er 6 prosent av sammenlignbare modeller, totalparametrene er kuttet til en tredjedel av Ernie 5.0, og modellen rangerer fjerde på LMArenas søkeliste.

[verktøy] 9.5., 04:36

Modular slipper Mojo 1.0 Beta: Python-syntaks med C++-ytelse og GPU-kjerner i ett språk

Modular hevet 7. mai KI-språket Mojo til 1.0 Beta og lanserte mojolang.org. Beta-en regnes som «feature complete» og lar utviklere bygge mot stabile versjoner uten brudd.

[analyse] 8.5., 12:12

Hovedkortsalget faller 28 prosent: KI-fabrikker spiser komponentene du trenger til lokale modeller

Hovedkort-salget for de fire største merkene faller 28 prosent i 2026 fordi Nvidia, Intel og AMD prioriterer KI-akseleratorer over forbrukerbrikker. Asus alene selger 5 millioner færre enn i fjor.

[analyse] 8.5., 00:16

OpenAI bytter Responses API til WebSocket: 40 prosent kortere agent-latens i Vercel, Cline og Cursor

OpenAI har lagt WebSocket-modus til Responses API og kuttet HTTP-rundturer mellom verktøy-kall. Vercel, Cline og Cursor melder 30-40 prosent kortere agent-latens i tidlig produksjonsbruk.

GitHub (Blaizzy/mlx-vlm)

mlx-vlm v0.5.0: kontinuerlig batching, MTP-spekulering og Gemma 4-video på Apple Silicon

GitHub (antirez/ds4)

antirez slipper ds4: dedikert Metal-motor for DeepSeek V4 Flash, 2-bit kvantisering, KV-cache på SSD

[modell] 7.5., 12:27

Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten

Google la 6. mai til en åpen «drafter»-modell i Gemma 4 som forutsier flere tokens parallelt og gir 2,5 til 3,1 ganger raskere lokal generering, ifølge målinger på Pixel og Apple M4.

Winbuzzer

OpenAI gjør GPT-5.5 Instant til ny standardmodell, hevder over 50 prosent færre hallusinasjoner

[verktøy] 7.5., 08:16

Google deler TPU 8 i to varianter: 9 600 brikker per superpod for trening, 288 GB minne per chip for agent-inferens

Google har splittet sin åttende TPU-generasjon i to spesialiserte brikker. TPU 8t skalerer til 9 600 brikker per superpod med 121 ExaFlops, mens TPU 8i optimerer for agent-inferens med 288 GB minne og 80 prosent bedre ytelse per dollar.

[verktøy] 6.5., 20:32

Ollama v0.23.1: Gemma 4 MTP gir over 2x fart på Mac for kodingsoppgaver

Ollama v0.23.1 legger til Gemma 4 MTP-spekulativ dekoding på MLX. Kodingsoppgaver med Gemma 4 31B på Mac kjører over dobbelt så raskt med modellvarianten gemma4:31b-coding-mtp-bf16.

[analyse] 6.5., 16:44

Computer-use 45 ganger dyrere enn struktur-API i Reflex-benchmark

Reflex målte samme Claude Sonnet mot samme admin-panel: 53 vision-steg og 551 000 tokens versus 8 API-kall og 12 000 tokens. Vision-agenten klarte ikke oppgaven uten en 14-stegs walkthrough.

[verktøy] 5.5., 20:51

Gemma 4 får MTP-drafters: opp til 3x raskere lokal inferens uten kvalitetstap

Google slipper Multi-Token Prediction-drafters for hele Gemma 4-familien. Med spekulativ dekoding lover Google opp til 3x speedup i tokens per sekund på lokal hardware, uten endring i utdata.

[modell] 5.5., 08:08

NVIDIAs åpne Nemotron 3 Super topper EnterpriseOps-Gym med 27,3 poeng og slår DeepSeek og Kimi

NVIDIA Nemotron 3 Super ligger nå på førsteplass i EnterpriseOps-Gyms leaderboard for åpne modeller med 27,3 poeng i snitt. Modellen er en 120B hybrid Mamba-Transformer MoE med 12B aktive parametere og 1M kontekstvindu.

[forskning] 5.5., 00:09

OpenAI: slik holder vi 900 millioner stemme-sesjoner i gang uten merkbar latens

OpenAI rebygde WebRTC-stakken bak ChatGPT Voice og Realtime API for å skalere til 900 millioner ukentlige brukere uten å eksponere titusenvis av UDP-porter. Løsningen: et tynt Go-relé som ruter pakker via ICE-ufrag før WebRTC-sesjonen er etablert.

[verktøy] 4.5., 04:25

Cloudflare splitter LLM-prosessering i to: Infire kjører Kimi K2.5 på 8 H100-er

Cloudflare lanserte en egen inferens-motor «Infire» som splitter prefill og decode på ulik maskinvare og kjører Kimi K2.5 (560 GB) på åtte H100-er.

[modell] 2.5., 16:12

GPT-5.5 vant intelligens-indeksen, men hallusinerer 85 % av tiden den ikke vet svaret

GPT-5.5 topper Artificial Analysis Intelligence Index med 60 poeng, men hallusinasjonsraten er 85,53 % — mer enn dobbelt så høy som Claude Opus 4.7. Apollo Research fant at modellen løy om å løse umulige programmeringsoppgaver i 29 % av tilfellene.

[analyse] 2.5., 08:16

En uke uten Claude Pro: lokal Qwen 3.5 9B taklet alt unntatt render-panelet

XDA-skribent erstattet Claude Pro med Qwen 3.5 9B på en RTX 3070 i en uke. Bilde-analyse og research holdt mål, men render-panelet ble grunnen til å beholde $17/mnd-abonnementet.

[modell] 1.5., 16:28

DeepSeek V4: åpen 1,6T-modell med MIT-lisens nær GPT-5.5 til en sjettedel av prisen

DeepSeek slipper V4 — 1,6 billioner parametere, MIT-lisens og BrowseComp 83,4 prosent mot GPT-5.5 sin 84,4. API-en koster rundt en sjettedel av OpenAI og Anthropic.

Interesting Engineering

Lumai Iris Nova: optisk datamaskin kjører Llama 70B med 90 prosent mindre strøm

[forskning] 1.5., 12:16

Google TurboQuant: KV-cache-kompresjon kutter minnebruk 6x uten retrening

«6x-forbedringen vil sannsynligvis bli brukt til lengre kontekstvinduer eller bedre modeller, ikke til å frigjøre minnet ditt,» kommenterte Merrill Lynch-analytikere etter Googles presentasjon av TurboQuant. Teknikken komprimerer KV-cachen i LLM-er under inference med to grep: PolarQuant konverterer fra kartesiske til polarkoordinater, og Quantized Johnson-Lindenstrauss (QJL) retter kvantiseringsfeil. Google har testet på Llama 3.1-8B, Gemma og Mistral uten ytelsestap, og uten retrening. TurboQuant vises på ICLR 2026 og AISTATS 2026, men det er fortsatt forskningskode — ikke en patch du kan slå på i llama.cpp i dag.

SiliconANGLE

Runpod Flash: skriv Python lokalt, få auto-skalerende inferens-endepunkt uten Docker

[verktøy] 28.4., 00:18

Open source-agenten Dirac topper TerminalBench 2.0 med 65,2 prosent og 64,8 prosent lavere kostnad

Dirac (Apache 2.0, TypeScript) scorer 65,2 % på Terminal-Bench-2 mot Junie CLIs 64,3 % og Googles offisielle 47,6 % på samme modell. Snittkostnad per oppgave: $0,18 mot $0,49 for Cline.

[forskning] 26.4., 08:19

LamBench tester KI-modeller på lambda-kalkyle — Opus 4.6 og GPT-5.3 Codex deler førsteplassen

Victor Taelin har sluppet LamBench med 120 oppgaver i ren lambda-kalkyle. GPT-5.3 Codex og Opus 4.6 topper med 90 prosent, mens Opus 4.5, Sonnet 4.5 og GPT-5.1 scorer null.

[analyse] 22.4., 20:13

Google deler TPU i to: 8t for trening, 8i for inferens, dobbel ytelse per watt

Google lanserte to nye TPU-brikker på Cloud Next 2026 — TPU 8t for trening og TPU 8i for inferens — med dobbel ytelse per watt mot Ironwood.

The Verge

RAM-mangelen kan vare til 2030 — lokal inferens blir dyrere lenge

[verktøy] 20.4., 00:09

llama.cpp fletter inn spekulativ sjekkpunkting: 40 prosent mindre VRAM, 20 prosent flere tokens

Georgi Gerganov flettet 18. april inn spekulativ sjekkpunkting i llama.cpp. Benchmarks viser opptil 40 prosent mindre VRAM og 15-20 prosent flere tokens per sekund på 70B-modeller.

Cloudflare Research

Cloudflare komprimerer LLM-vekter tapsfritt — 2,6 bits entropi per BF16-eksponent

Claude Code Camp

Opus 4.7 bruker 1,33x flere tokens enn 4.6 — måling av den nye tokenizeren

[analysis] 16.4., 20:19

21GB Qwen3.6 på en laptop tegnet bedre pelikan enn Claude Opus 4.7

Simon Willison testet Qwen3.6-35B-A3B (20,9GB kvantisert) mot nye Claude Opus 4.7 på sin MacBook Pro M5 via LM Studio. Den lokale modellen vant på både pelikan-på-sykkel og flamingo-på-enhjuling — SVG-benchmarken Willison har brukt siden oktober 2024.

GizmoWeek

Google Gemma 4 kjører direkte på iPhone med full offline-inferens

[forskning] 14.4., 18:12

Åpne modeller under 32B parametre matcher nå GPT-5-nivå ytelse

Qwen3.5 27B og Gemma 4 31B scorer på nivå med GPT-5 på Artificial Analysis sin Intelligence Index, men sliter med faktagjenkalling.

EE Times

ROCm tar opp kampen mot CUDA: AMD satser steg for steg

Analytics India Magazine

NVIDIA lanserer AITune: åpen kildekode-verktøy for automatisk inferensoptimalisering

PyShine

Google lanserer LiteRT-LM: inferens-rammeverk for LLM på kant-enheter

MarkTechPost

NVIDIA lanserer AITune: velger raskeste inferens-backend automatisk

XDA Developers

Spekulativ dekoding gjør lokale LLM-er raskere uten maskinvareoppgradering

WinBuzzer

Arcee Trinity-Large-Thinking: åpen resonneringsmodell med 399 milliarder parametere til en brøkdel av prisen