Cursor Composer 2.5: 25x mer syntetisk trening, samme Kimi-base, samme pris

«Det var en glipp at vi ikke nevnte Kimi-basen i bloggen vår fra start. Det skal vi rette opp i neste modell.» — Aman Sanger, Cursor-medgrunnlegger

Sanger-sitatet er fra mars 2026, da Cursor måtte innrømme at de hadde brukt Moonshots Kimi K2.5 som base for Composer 2 uten å si det. I april kom det amerikanske kongressundersøkelser av Kimi-koblingen. Composer 2.5, som ble sluppet 18. mai, beholder samme basemodell, men er trent på 25 ganger flere syntetiske oppgaver med «targeted reinforcement learning with textual feedback» som gir modellen tilbakemelding underveis i lange rollouts. Det er hele veddemålet: kan tuning alene flytte en kodeagent merkbart uten å bytte base?

Tallene Cursor selv oppgir: 79,8 prosent på SWE-Bench Multilingual og 63,2 prosent på CursorBench v3.1. Standard-pris ligger fortsatt på 0,50 dollar per million input-tokens og 2,50 dollar per million output-tokens. Raskere tier gikk opp til 3 og 15 dollar, men førsteukens lansering inkluderte et midlertidig bruksboost framfor permanent priskutt.

>_ NØKKELTALL

25x flere syntetiske oppgaver i post-treningen versus Composer 2

79,8 % på SWE-Bench Multilingual

63,2 % på CursorBench v3.1

0,50 / 2,50 USD input/output per million tokens, standard-tier

Det praktiske spørsmålet for deg som bruker en kodeagent på flerfil-refaktoreringer: holder tuning når basemodellen er den samme? Composer 2 brukte tofase-trening med fortsatt pre-trening på kode-tunge data før storskala RL. Composer 2.5 ligger på samme spor, bare med mer av det. Cursor sier også at de bygger en betydelig større modell fra bunnen av med SpaceXAIs Colossus 2-infrastruktur (omtrent én million H100-ekvivalenter) og 10 ganger mer total compute. Den modellen er ikke Composer 2.5, men signalet er at Cursor anser dagens base som en mellomstasjon.

For norske utviklere som allerede betaler for Cursor, er Composer 2.5 tilgjengelig umiddelbart i klienten. Det betyr at du kan teste lange autonome rollouts på ekte repo-arbeid nå — flerfil-debugging, gjentatte verktøykall, refaktorering over flere kataloger. Det er der benchmark-tallene møter virkeligheten. Hvis tuning faktisk har dyttet planlegging og verktøybruk videre uten å endre base, vil det vise seg i hvordan modellen takler en lang feilkjede uten å miste konteksten.

Hva bør du gjøre?

Test Composer 2.5 mot en konkret langløpsoppgave i ditt eget repo. Velg en oppgave som krever 5–10 verktøykall og to-tre filendringer. Sammenlign med Claude Code eller Codex på samme oppgave.
Sjekk Cursors disclosure for neste modell. Sanger lovet å rydde opp i base-modell-formidlingen. Hvis neste lansering fortsatt er uklar på det, har du svaret på om løftet betydde noe.
Følg med på den større modellen Cursor trener fra bunnen av. Den vil avgjøre om Cursor blir værende på Kimi-spor eller hopper over til egen modellfamilie.