ytelse
45 SAKER INDEKSERT
Gemini 3.5 Flash: 300 tokens i sekundet med frontier-ytelse og Omni do-anything-modell
Google lanserte Gemini 3.5 Flash på I/O 2026 med rundt 300 tokens i sekundet og benchmark-tall på linje med Gemini 3.1 Pro som kjører i en fjerdedel av hastigheten.
llama.cpp dobler Qwen3.6 27B med Multi-Token Prediction: 7,4 til 18,1 t/s på Strix Halo
llama.cpp slo sammen Multi-Token Prediction 16. mai. På AMD Strix Halo gikk Qwen3.6 27B fra 7,4 til 18,1 tokens per sekund.
OpenAI lanserer GPT-5.3-Codex-Spark: første produkt på Cerebras-maskinvare
OpenAI har sluppet GPT-5.3-Codex-Spark, en raskere variant av kodemodellen som er live for ChatGPT Pro og kjører utelukkende på Cerebras-maskinvare, ikke Nvidia.
Coding Agent Index: Cursor CLI med Opus 4.7 topper første tverr-stack-benchmark
61 mot 60. Det er hele forspranget Cursor CLI med Claude Opus 4.7 har til OpenAIs Codex og Anthropics egen Claude Code i Artificial Analysis' nye Coding Agent Index, den første benchmarken som rangerer hele kombinasjonen av modell og agentverktøy i stedet for språkmodellen alene. Gemini CLI med Gemini 3.1 Pro kom sist på 43. Indeksen er et uvektet snitt av pass@1 over 358 oppgaver fra tre benchmarker, kjørt tre ganger, så ettpoengs-ledelsen er trolig ren støy. Det interessante skjer når modellen holdes konstant: med Opus 4.7 i begge ender slår Cursors verktøylag Anthropics eget.
Perceptron Mk1: video-analyse 80 til 90 prosent billigere enn Anthropic, OpenAI og Google
Perceptron lanserte i dag Mk1, en proprietær video-analysemodell på API til 0,15 dollar per million input-tokens og 1,50 dollar per million output.
Lokale modeller på M4 med 24 GB minne: hva som faktisk er brukbart
Qwen 3.5 9B i Q4_K_S-kvantisering klarer 40 tokens i sekundet med 128K kontekst på en M4 med 24 GB minne, og er den eneste i en ny test som virker for daglig kodearbeid.
Sakana og NVIDIA gjør LLM-inferens 20,5 prosent raskere med TwELL: ren CUDA, ingen arkitekturendring
Sakana AI og NVIDIA publiserte TwELL, et nytt sparse-format med tilpassede CUDA-kjerner som gir 20,5 prosent raskere inferens og 21,9 prosent raskere trening på en 2B-modell, uten målbart nøyaktighetstap. Trikset er å pakke aktiveringssparsitet inn i samme tile-størrelse som matmul-kjernen allerede bruker, slik at Tensor Cores ikke blir tomgang.
Brukt server-GPU til 200 dollar kjører LLM bedre enn RTX 3060
Hardware Haven viser hvordan en NVIDIA V100 16 GB fra 2017 kan kjøpes for rundt 100 dollar på SXM2-server-sokkel og kobles til vanlig hovedkort med en adapter til ytterligere 100 dollar. PCIe-versjonen koster typisk over 1000 dollar.
Baidu lanserer Ernie 5.1: pretrening koster 6 prosent av tilsvarende modeller
Baidu slipper Ernie 5.1: pretreningskostnad er 6 prosent av sammenlignbare modeller, totalparametrene er kuttet til en tredjedel av Ernie 5.0, og modellen rangerer fjerde på LMArenas søkeliste.
Modular slipper Mojo 1.0 Beta: Python-syntaks med C++-ytelse og GPU-kjerner i ett språk
Modular hevet 7. mai KI-språket Mojo til 1.0 Beta og lanserte mojolang.org. Beta-en regnes som «feature complete» og lar utviklere bygge mot stabile versjoner uten brudd.
Hovedkortsalget faller 28 prosent: KI-fabrikker spiser komponentene du trenger til lokale modeller
Hovedkort-salget for de fire største merkene faller 28 prosent i 2026 fordi Nvidia, Intel og AMD prioriterer KI-akseleratorer over forbrukerbrikker. Asus alene selger 5 millioner færre enn i fjor.
OpenAI bytter Responses API til WebSocket: 40 prosent kortere agent-latens i Vercel, Cline og Cursor
OpenAI har lagt WebSocket-modus til Responses API og kuttet HTTP-rundturer mellom verktøy-kall. Vercel, Cline og Cursor melder 30-40 prosent kortere agent-latens i tidlig produksjonsbruk.
mlx-vlm v0.5.0: kontinuerlig batching, MTP-spekulering og Gemma 4-video på Apple Silicon
antirez slipper ds4: dedikert Metal-motor for DeepSeek V4 Flash, 2-bit kvantisering, KV-cache på SSD
Google legger multi-token-prediksjon til Gemma 4: opptil 3,1× raskere lokalt uten å endre kvaliteten
Google la 6. mai til en åpen «drafter»-modell i Gemma 4 som forutsier flere tokens parallelt og gir 2,5 til 3,1 ganger raskere lokal generering, ifølge målinger på Pixel og Apple M4.
OpenAI gjør GPT-5.5 Instant til ny standardmodell, hevder over 50 prosent færre hallusinasjoner
Google deler TPU 8 i to varianter: 9 600 brikker per superpod for trening, 288 GB minne per chip for agent-inferens
Google har splittet sin åttende TPU-generasjon i to spesialiserte brikker. TPU 8t skalerer til 9 600 brikker per superpod med 121 ExaFlops, mens TPU 8i optimerer for agent-inferens med 288 GB minne og 80 prosent bedre ytelse per dollar.
Ollama v0.23.1: Gemma 4 MTP gir over 2x fart på Mac for kodingsoppgaver
Ollama v0.23.1 legger til Gemma 4 MTP-spekulativ dekoding på MLX. Kodingsoppgaver med Gemma 4 31B på Mac kjører over dobbelt så raskt med modellvarianten gemma4:31b-coding-mtp-bf16.
Computer-use 45 ganger dyrere enn struktur-API i Reflex-benchmark
Reflex målte samme Claude Sonnet mot samme admin-panel: 53 vision-steg og 551 000 tokens versus 8 API-kall og 12 000 tokens. Vision-agenten klarte ikke oppgaven uten en 14-stegs walkthrough.
Gemma 4 får MTP-drafters: opp til 3x raskere lokal inferens uten kvalitetstap
Google slipper Multi-Token Prediction-drafters for hele Gemma 4-familien. Med spekulativ dekoding lover Google opp til 3x speedup i tokens per sekund på lokal hardware, uten endring i utdata.
NVIDIAs åpne Nemotron 3 Super topper EnterpriseOps-Gym med 27,3 poeng og slår DeepSeek og Kimi
NVIDIA Nemotron 3 Super ligger nå på førsteplass i EnterpriseOps-Gyms leaderboard for åpne modeller med 27,3 poeng i snitt. Modellen er en 120B hybrid Mamba-Transformer MoE med 12B aktive parametere og 1M kontekstvindu.
OpenAI: slik holder vi 900 millioner stemme-sesjoner i gang uten merkbar latens
OpenAI rebygde WebRTC-stakken bak ChatGPT Voice og Realtime API for å skalere til 900 millioner ukentlige brukere uten å eksponere titusenvis av UDP-porter. Løsningen: et tynt Go-relé som ruter pakker via ICE-ufrag før WebRTC-sesjonen er etablert.
Cloudflare splitter LLM-prosessering i to: Infire kjører Kimi K2.5 på 8 H100-er
Cloudflare lanserte en egen inferens-motor «Infire» som splitter prefill og decode på ulik maskinvare og kjører Kimi K2.5 (560 GB) på åtte H100-er.
GPT-5.5 vant intelligens-indeksen, men hallusinerer 85 % av tiden den ikke vet svaret
GPT-5.5 topper Artificial Analysis Intelligence Index med 60 poeng, men hallusinasjonsraten er 85,53 % — mer enn dobbelt så høy som Claude Opus 4.7. Apollo Research fant at modellen løy om å løse umulige programmeringsoppgaver i 29 % av tilfellene.
En uke uten Claude Pro: lokal Qwen 3.5 9B taklet alt unntatt render-panelet
XDA-skribent erstattet Claude Pro med Qwen 3.5 9B på en RTX 3070 i en uke. Bilde-analyse og research holdt mål, men render-panelet ble grunnen til å beholde $17/mnd-abonnementet.
DeepSeek V4: åpen 1,6T-modell med MIT-lisens nær GPT-5.5 til en sjettedel av prisen
DeepSeek slipper V4 — 1,6 billioner parametere, MIT-lisens og BrowseComp 83,4 prosent mot GPT-5.5 sin 84,4. API-en koster rundt en sjettedel av OpenAI og Anthropic.
Lumai Iris Nova: optisk datamaskin kjører Llama 70B med 90 prosent mindre strøm
Google TurboQuant: KV-cache-kompresjon kutter minnebruk 6x uten retrening
«6x-forbedringen vil sannsynligvis bli brukt til lengre kontekstvinduer eller bedre modeller, ikke til å frigjøre minnet ditt,» kommenterte Merrill Lynch-analytikere etter Googles presentasjon av TurboQuant. Teknikken komprimerer KV-cachen i LLM-er under inference med to grep: PolarQuant konverterer fra kartesiske til polarkoordinater, og Quantized Johnson-Lindenstrauss (QJL) retter kvantiseringsfeil. Google har testet på Llama 3.1-8B, Gemma og Mistral uten ytelsestap, og uten retrening. TurboQuant vises på ICLR 2026 og AISTATS 2026, men det er fortsatt forskningskode — ikke en patch du kan slå på i llama.cpp i dag.
Runpod Flash: skriv Python lokalt, få auto-skalerende inferens-endepunkt uten Docker
Open source-agenten Dirac topper TerminalBench 2.0 med 65,2 prosent og 64,8 prosent lavere kostnad
Dirac (Apache 2.0, TypeScript) scorer 65,2 % på Terminal-Bench-2 mot Junie CLIs 64,3 % og Googles offisielle 47,6 % på samme modell. Snittkostnad per oppgave: $0,18 mot $0,49 for Cline.
LamBench tester KI-modeller på lambda-kalkyle — Opus 4.6 og GPT-5.3 Codex deler førsteplassen
Victor Taelin har sluppet LamBench med 120 oppgaver i ren lambda-kalkyle. GPT-5.3 Codex og Opus 4.6 topper med 90 prosent, mens Opus 4.5, Sonnet 4.5 og GPT-5.1 scorer null.
Google deler TPU i to: 8t for trening, 8i for inferens, dobbel ytelse per watt
Google lanserte to nye TPU-brikker på Cloud Next 2026 — TPU 8t for trening og TPU 8i for inferens — med dobbel ytelse per watt mot Ironwood.
RAM-mangelen kan vare til 2030 — lokal inferens blir dyrere lenge
llama.cpp fletter inn spekulativ sjekkpunkting: 40 prosent mindre VRAM, 20 prosent flere tokens
Georgi Gerganov flettet 18. april inn spekulativ sjekkpunkting i llama.cpp. Benchmarks viser opptil 40 prosent mindre VRAM og 15-20 prosent flere tokens per sekund på 70B-modeller.
Cloudflare komprimerer LLM-vekter tapsfritt — 2,6 bits entropi per BF16-eksponent
Opus 4.7 bruker 1,33x flere tokens enn 4.6 — måling av den nye tokenizeren
21GB Qwen3.6 på en laptop tegnet bedre pelikan enn Claude Opus 4.7
Simon Willison testet Qwen3.6-35B-A3B (20,9GB kvantisert) mot nye Claude Opus 4.7 på sin MacBook Pro M5 via LM Studio. Den lokale modellen vant på både pelikan-på-sykkel og flamingo-på-enhjuling — SVG-benchmarken Willison har brukt siden oktober 2024.
Google Gemma 4 kjører direkte på iPhone med full offline-inferens
Åpne modeller under 32B parametre matcher nå GPT-5-nivå ytelse
Qwen3.5 27B og Gemma 4 31B scorer på nivå med GPT-5 på Artificial Analysis sin Intelligence Index, men sliter med faktagjenkalling.