Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
aiHola · 14.5., 12:34 · analyse

Coding Agent Index: Cursor CLI med Opus 4.7 topper første tverr-stack-benchmark

SYNOPSIS_GENERERT

61 mot 60. Det er hele forspranget Cursor CLI med Claude Opus 4.7 har til OpenAIs Codex og Anthropics egen Claude Code i Artificial Analysis' nye Coding Agent Index, den første benchmarken som rangerer hele kombinasjonen av modell og agentverktøy i stedet for språkmodellen alene. Gemini CLI med Gemini 3.1 Pro kom sist på 43. Indeksen er et uvektet snitt av pass@1 over 358 oppgaver fra tre benchmarker, kjørt tre ganger, så ettpoengs-ledelsen er trolig ren støy. Det interessante skjer når modellen holdes konstant: med Opus 4.7 i begge ender slår Cursors verktøylag Anthropics eget.

Artificial Analysis publiserte Coding Agent Index 13. mai, og det nye er måleenheten. Tidligere benchmarker rangerte språkmodeller; her måles kombinasjonen av modell og det agentverktøyet som faktisk kaller modellen, planlegger steg og kjører kommandoer. Indeksen er et rett gjennomsnitt av pass@1 over tre deler: SWE-Bench-Pro-Hard-AA med 150 implementeringsoppgaver, Terminal-Bench v2 med 84 agentiske shell-oppgaver og SWE-Atlas-QnA med 124 spørsmål om kodebaser. Til sammen 358 oppgaver, kjørt tre ganger og snittet.

Toppstriden er for tett til å bety noe. Cursor på 61, Codex og Claude Code på 60: med 358 oppgaver kan ett poeng komme an på en håndfull kanttilfeller som faller den ene eller andre veien. Artificial Analysis sier det selv i metoden, og påpeker at to verktøy med samme indeksverdi kan hente poengene sine fra helt ulike oppgavetyper. Et uvektet snitt som teller et enkelt kodebase-spørsmål likt med en flerstegs terminaljobb skjuler nettopp den slags forskjeller.

Det som tåler vekten, er sammenligningen der modellen holdes fast. Med Opus 4.7 i begge ender publiserte Artificial Analysis en egen graf, og der ligger Cursor over Claude Code. Anthropic lager modellen; Cursor pakker den inn i sitt eget verktøy og får mer ut av den. Holder det over flere kjøringer, er det et ubehagelig signal for selskapet som eier modellen.

Det andre tallet verdt å merke seg ligger nederst på kostnadsgrafen. Cursor CLI med selskapets egen Composer 2-modell kostet 0,07 dollar per oppgave i snitt, mot opptil 0,76 dollar for de dyreste oppsettene. Composer 2 er ingen frontmodell, men i en agentisk løkke der modellen kalles dusinvis av ganger per oppgave, er ti gangers prisforskjell mer enn nok til å veie opp for et lavere indekstall.

Hva bør du gjøre?

  1. Ikke velg agentverktøy på ettpoengs-forskjeller. Toppen av indeksen er innenfor støynivået, så se heller på Terminal-Bench-delen isolert hvis arbeidet ditt er shell-tungt.
  1. Test verktøylaget, ikke bare modellen. Tallene viser at samme modell gir målbart ulikt resultat avhengig av hvilket verktøy som driver den, så bytt CLI og mål på dine egne oppgaver før du binder deg.
  2. Regn på kostnad per oppgave, ikke per token. Et billigere oppsett som Composer 2 kan være riktig valg for høyt volum selv om det ikke topper treffsikkerheten.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN