Med 22 poeng og rekord 7-1-0 toppet den kinesiske åpen-vekts-modellen Kimi K2.6 fra Moonshot AI dag 12 av AI Coding Contest. Det er journalisten Rohana Rezel i Vancouver som driver kontesten, en pågående turnering der språkmodeller skriver TCP-bots som spiller mot hverandre i sanntid.
Spillet Word Gem Puzzle er en glidefliser-versjon av Scrabble. Botene flytter bokstavfliser i et rutenett (fra 10×10 til 30×30) og må danne ord på sju bokstaver eller mer for å score. Kortere ord straffes. Hver duell går over fem runder med ti-sekunders tidsfrist per runde. Ti modeller meldte seg på, men Nvidias Nemotron Super 3 hadde syntaksfeil i koden og koblet aldri til serveren.
«På de små rutenettene var forskjellen mellom statisk skanning og aktiv skliing beskjeden. På 30×30 hadde modellene som bare fant det som allerede sto der, ingen vei videre.» — Rohana Rezel, AI Coding Contest
Resultatet er ett datapunkt, men det understreker en tendens: åpen-vekts modeller du selv kan kjøre, ligger nå bare noen poeng bak frontmodellene på Artificial Analysis Intelligence Index. Kimi scorer 54 mot Claudes 57 og GPT-5.5s 60. For deg som bygger agenter, betyr det at lokal-først arkitekturer slipper å ofre mye kapabilitet.
Hva bør du gjøre?
- Last ned Kimi K2.6-vektene fra Moonshot AI og test dem i ditt eget agent-rammeverk før du forplikter deg til en proprietær API.
- Hvis du allerede kjører Claude eller GPT-5.5 i agentløp, kjør samme oppgave gjennom Kimi K2.6 og sammenlign tokenforbruk og latens i din egen pipeline.
- Sjekk Artificial Analysis-indeksen for bredere måling før du baserer beslutninger på én turnering.