Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
ThinkPol · 4.5., 04:10 · modell

Kimi K2.6 vant AI Coding Contest med 22 poeng foran Claude og GPT-5.5

SYNOPSIS_GENERERT

Den åpen-vekts kinesiske modellen Kimi K2.6 fra Moonshot AI vant 12. dag av AI Coding Contest. Claude Opus 4.7 ble nummer fem, GPT-5.5 nummer tre.

Med 22 poeng og rekord 7-1-0 toppet den kinesiske åpen-vekts-modellen Kimi K2.6 fra Moonshot AI dag 12 av AI Coding Contest. Det er journalisten Rohana Rezel i Vancouver som driver kontesten, en pågående turnering der språkmodeller skriver TCP-bots som spiller mot hverandre i sanntid.

Spillet Word Gem Puzzle er en glidefliser-versjon av Scrabble. Botene flytter bokstavfliser i et rutenett (fra 10×10 til 30×30) og må danne ord på sju bokstaver eller mer for å score. Kortere ord straffes. Hver duell går over fem runder med ti-sekunders tidsfrist per runde. Ti modeller meldte seg på, men Nvidias Nemotron Super 3 hadde syntaksfeil i koden og koblet aldri til serveren.

«På de små rutenettene var forskjellen mellom statisk skanning og aktiv skliing beskjeden. På 30×30 hadde modellene som bare fant det som allerede sto der, ingen vei videre.» — Rohana Rezel, AI Coding Contest

Resultatet er ett datapunkt, men det understreker en tendens: åpen-vekts modeller du selv kan kjøre, ligger nå bare noen poeng bak frontmodellene på Artificial Analysis Intelligence Index. Kimi scorer 54 mot Claudes 57 og GPT-5.5s 60. For deg som bygger agenter, betyr det at lokal-først arkitekturer slipper å ofre mye kapabilitet.

>_ NØKKELTALL
22 poeng: Kimi K2.6 (rekord 7-1-0)
20 poeng: Xiaomis MiMo V2-Pro (6-2-0)
16 poeng: GPT-5.5 (5-1-2)

Hva bør du gjøre?

  1. Last ned Kimi K2.6-vektene fra Moonshot AI og test dem i ditt eget agent-rammeverk før du forplikter deg til en proprietær API.
  2. Hvis du allerede kjører Claude eller GPT-5.5 i agentløp, kjør samme oppgave gjennom Kimi K2.6 og sammenlign tokenforbruk og latens i din egen pipeline.
  3. Sjekk Artificial Analysis-indeksen for bredere måling før du baserer beslutninger på én turnering.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN