33,3 prosent. Det er alt Claude Sonnet 4.6 klarte på ClawBench, en ny benchmark som tester KI-agenter på 153 faktiske nettoppgaver fordelt på 144 plattformer. Til sammenligning scorer samme modell 72-75 prosent på etablerte benchmarks som OSWorld og WebArena.
Forskjellen er enkel: eksisterende benchmarks bruker sandkasse-kopier av nettsider med statisk HTML og uten JavaScript-rendering. ClawBench sender agentene ut på ekte nettsider med cookie-dialoger, CAPTCHAs og dynamisk innhold. Oppgavene er praktiske: bestille en flyreise, søke på en jobb, legge inn en bestilling.
«Claude Sonnet 4.6 scorer 88 % på PinchBench og 77,6 % på WildClawBench, men bare 33,3 % på ClawBench» — fra forskningsartikkelen
Blant syv testede modeller kom GLM-5 på andreplass med 24,2 prosent, Gemini 3 Flash på 19 prosent, og GPT-5.4 klarte bare 6,5 prosent. Modellene var best på finans- og akademiske oppgaver med standardiserte skjemaer, og svakest på utvikler- og sosiale medier-oppgaver der sidene endrer seg ofte.
For utviklere som bygger agenter er budskapet tydelig: agenter som ser imponerende ut i demomiljøer, feiler på det virkelige nettet. Infrastrukturen og datasettene er publisert på GitHub.