Kimi K2.6 slår Claude Opus 4.6 og GPT-5.4 på flere agent-benchmarks — åpen modell med 300-agent-swarm

Der proprietære modeller fra OpenAI, Anthropic og Google har dominert agent-benchmarks i snart to år, leverer Moonshot AI nå en åpen modell i samme divisjon. Kimi K2.6 ble sluppet 21. april med åpne vekter og tilgjengelig via Kimi.com, Kimi App, API og Kimi Code.

Tallene fra Moonshots egne benchmarks (verifiserbare via Kimi Vendor Verifier): På HLE-Full med tools scorer K2.6 54,0, foran både Claude Opus 4.6 max effort (53,0) og GPT-5.4 xhigh (52,1). På DeepSearchQA accuracy er forspranget større: 83,0 mot 80,6 for Claude og 63,7 for GPT. På SWE-Bench Pro tar K2.6 58,6 mot 57,7 for GPT-5.4 og 53,4 for Claude. På ren resonnering (HLE uten tools, GPQA-Diamond) henger K2.6 fremdeles bak Gemini 3.1 Pro og GPT-5.4, men gapet er lite.

«Kimi K2.6 autonomously overhauled exchange-core, an 8-year-old open-source financial matching engine. Over a 13-hour execution, the model iterated through 12 optimization strategies, initiating over 1,000 tool calls to precisely modify more than 4,000 lines of code.» — Moonshot AI, lanseringsposten

Agent Swarm-arkitekturen er det virkelig nye: K2.6 dekomponerer oppgaver i heterogene sub-oppgaver som kjøres parallelt av spesialiserte agenter. Arkitekturen skalerer horisontalt til 300 sub-agenter i 4 000 koordinerte steg — en vesentlig utvidelse fra K2.5s 100 sub-agenter og 1 500 steg. I et konkret eksempel fra Moonshot, lastet og optimaliserte K2.6 en Qwen3.5-0.8B-modell lokalt på Mac gjennom 4 000+ tool-kall og 14 iterasjoner, og dro throughput fra 15 til 193 tokens/sek — raskere enn LM Studio.

>_ NØKKELTALL

54,0 på HLE-Full w/ tools — foran Claude Opus 4.6 (53,0) og GPT-5.4 xhigh (52,1)

300 sub-agenter og 4 000 steg i Agent Swarm (fra 100/1 500 i K2.5)

606 poeng på Hacker News ved lansering

58,6 på SWE-Bench Pro mot 57,7 (GPT-5.4) og 53,4 (Claude Opus 4.6)

Hva bør du gjøre?

Test K2.6 mot din agent-workflow. Hvis du bruker Claude eller GPT for kode-agenter i dag, kjør samme prompt-sett mot K2.6 via Kimi API og mål både kvalitet og kostnad.
Bruk Kimi Vendor Verifier før du ruter produksjon gjennom tredjeparts-inferens — Moonshot har sluppet verktøyet nettopp fordi leverandørene varierer i hvor trofast de kjører modellen.
For agent-sverm-eksperimenter: vektene er åpne, så du kan kjøre K2.6 selvhostet hvis du har maskinvaren. Moonshots egne tall er fra H20-8-GPU-noder — ikke noe du kjører på én enkelt kort.

Bakgrunn

Kinesiske Moonshot har bygget opp Kimi-serien systematisk: K2 kom i fjor sommer, K2.5 og K2 Thinking tidligere i 2026. K2.6 er den første åpne modellen som konsekvent matcher proprietære modeller på agent-oppgaver — ikke bare på tradisjonelle reasoning-benchmarks. Det endrer forretningsspørsmålet for utviklere: du kan nå velge åpne vekter uten å måtte akseptere en betydelig kvalitets-rabatt på agent-arbeid.