Coding Agent Index: Cursor CLI med Opus 4.7 topper første tverr-stack-benchmark

Artificial Analysis publiserte Coding Agent Index 13. mai, og det nye er måleenheten. Tidligere benchmarker rangerte språkmodeller; her måles kombinasjonen av modell og det agentverktøyet som faktisk kaller modellen, planlegger steg og kjører kommandoer. Indeksen er et rett gjennomsnitt av pass@1 over tre deler: SWE-Bench-Pro-Hard-AA med 150 implementeringsoppgaver, Terminal-Bench v2 med 84 agentiske shell-oppgaver og SWE-Atlas-QnA med 124 spørsmål om kodebaser. Til sammen 358 oppgaver, kjørt tre ganger og snittet.

Toppstriden er for tett til å bety noe. Cursor på 61, Codex og Claude Code på 60: med 358 oppgaver kan ett poeng komme an på en håndfull kanttilfeller som faller den ene eller andre veien. Artificial Analysis sier det selv i metoden, og påpeker at to verktøy med samme indeksverdi kan hente poengene sine fra helt ulike oppgavetyper. Et uvektet snitt som teller et enkelt kodebase-spørsmål likt med en flerstegs terminaljobb skjuler nettopp den slags forskjeller.

Det som tåler vekten, er sammenligningen der modellen holdes fast. Med Opus 4.7 i begge ender publiserte Artificial Analysis en egen graf, og der ligger Cursor over Claude Code. Anthropic lager modellen; Cursor pakker den inn i sitt eget verktøy og får mer ut av den. Holder det over flere kjøringer, er det et ubehagelig signal for selskapet som eier modellen.

Det andre tallet verdt å merke seg ligger nederst på kostnadsgrafen. Cursor CLI med selskapets egen Composer 2-modell kostet 0,07 dollar per oppgave i snitt, mot opptil 0,76 dollar for de dyreste oppsettene. Composer 2 er ingen frontmodell, men i en agentisk løkke der modellen kalles dusinvis av ganger per oppgave, er ti gangers prisforskjell mer enn nok til å veie opp for et lavere indekstall.

Hva bør du gjøre?

Ikke velg agentverktøy på ettpoengs-forskjeller. Toppen av indeksen er innenfor støynivået, så se heller på Terminal-Bench-delen isolert hvis arbeidet ditt er shell-tungt.

Test verktøylaget, ikke bare modellen. Tallene viser at samme modell gir målbart ulikt resultat avhengig av hvilket verktøy som driver den, så bytt CLI og mål på dine egne oppgaver før du binder deg.
Regn på kostnad per oppgave, ikke per token. Et billigere oppsett som Composer 2 kan være riktig valg for høyt volum selv om det ikke topper treffsikkerheten.