ClawBench: Beste KI-agent klarte bare 33 prosent av vanlige nettoppgaver

33,3 prosent. Det er alt Claude Sonnet 4.6 klarte på ClawBench, en ny benchmark som tester KI-agenter på 153 faktiske nettoppgaver fordelt på 144 plattformer. Til sammenligning scorer samme modell 72-75 prosent på etablerte benchmarks som OSWorld og WebArena.

Forskjellen er enkel: eksisterende benchmarks bruker sandkasse-kopier av nettsider med statisk HTML og uten JavaScript-rendering. ClawBench sender agentene ut på ekte nettsider med cookie-dialoger, CAPTCHAs og dynamisk innhold. Oppgavene er praktiske: bestille en flyreise, søke på en jobb, legge inn en bestilling.

«Claude Sonnet 4.6 scorer 88 % på PinchBench og 77,6 % på WildClawBench, men bare 33,3 % på ClawBench» — fra forskningsartikkelen

Blant syv testede modeller kom GLM-5 på andreplass med 24,2 prosent, Gemini 3 Flash på 19 prosent, og GPT-5.4 klarte bare 6,5 prosent. Modellene var best på finans- og akademiske oppgaver med standardiserte skjemaer, og svakest på utvikler- og sosiale medier-oppgaver der sidene endrer seg ofte.

>_ NØKKELTALL

33,3 %

Claude Sonnet 4.6, beste resultat

6,5 %

GPT-5.4 på samme oppgaver

153

Oppgaver på 144 ekte plattformer

Kategorier fra shopping til jobbsøk

For utviklere som bygger agenter er budskapet tydelig: agenter som ser imponerende ut i demomiljøer, feiler på det virkelige nettet. Infrastrukturen og datasettene er publisert på GitHub.