Claude Sonnet 5 kjører agenter for 2 dollar per million tokens, nær Opus-ytelse

Anthropic lanserte 30. juni Claude Sonnet 5, og ifølge TechCrunch er hele vinkelen pris: modellen leverer ytelse nær Opus 4.8, men til en brøkdel av kostnaden. Innføringsprisen på 2 dollar inn og 10 dollar ut per million tokens gjelder til 31. august, deretter stiger den til 3 dollar inn og 15 dollar ut. Sonnet 5 er nå standardmodell for både gratis- og Pro-planene.

Det interessante for deg som kjører agenter er hvor lite du gir opp i kvalitet. På en benchmark for agentisk koding scorer Sonnet 5 63,2 prosent, mot Opus 4.8 sine 69,2 prosent og forgjengeren Sonnet 4.6 sine 58,1 prosent. På en benchmark for kunnskapsarbeid slår Sonnet 5 faktisk Opus 4.8 så vidt, selv om Opus fortsatt vinner på de vanskeligste vurderingsoppgavene og dyp research.

«Vi ga Claude Sonnet 5 en todelt jobb: oppdater Salesforce-kontonivåer og send en lanseringsannonse til enterprise-kontakter, og den fullførte hele løpet. Det pleide å stoppe halvveis.» — Daniel Shepard, senioringeniør i Zapier

Poenget Anthropic selv trekker frem er at agentisk evne nå er baseline i alle prisklasser. Da flytter konkurransen seg fra hvem som gjør agentisk arbeid best, til hvem som gjør det billigst og mest pålitelig uten menneskelig tilsyn. Sonnet 5 fullfører ifølge testere oppgaver der eldre modeller stoppet for tidlig, og sjekker eget output uten å bli bedt om det.

På sikkerhet rapporterer Anthropic lavere rate av uønsket atferd enn Sonnet 4.6: bedre på å avvise ondsinnede forespørsler og motstå prompt-injection, og mindre hallusinering og smisking. Modellen er likevel svakere enn Opus 4.8 på å utføre farlige cybersikkerhetsoppgaver, noe Anthropic fremstiller som en fordel i agentiske sammenhenger.

Vil du teste billigere agent-kjøring, bytt standardmodellen i din egen agent-stack til Sonnet 5 og mål kostnad mot kvalitet på din egen arbeidsflyt før prisen stiger 31. august. For oppgaver som krever de hardeste vurderingene beholder du Opus 4.8, og justerer effort-nivået mellom de to for å treffe riktig balanse mellom kostnad og presisjon.