Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Neurohive · 14.4., 04:14 · forskning

ClawBench: Beste KI-agent klarte bare 33 prosent av vanlige nettoppgaver

SYNOPSIS_GENERERT

Ny benchmark tester KI-agenter på ekte nettsider i stedet for sandkasser. Selv Claude Sonnet 4.6 klarer bare 33 prosent.

33,3 prosent. Det er alt Claude Sonnet 4.6 klarte på ClawBench, en ny benchmark som tester KI-agenter på 153 faktiske nettoppgaver fordelt på 144 plattformer. Til sammenligning scorer samme modell 72-75 prosent på etablerte benchmarks som OSWorld og WebArena.

Forskjellen er enkel: eksisterende benchmarks bruker sandkasse-kopier av nettsider med statisk HTML og uten JavaScript-rendering. ClawBench sender agentene ut på ekte nettsider med cookie-dialoger, CAPTCHAs og dynamisk innhold. Oppgavene er praktiske: bestille en flyreise, søke på en jobb, legge inn en bestilling.

«Claude Sonnet 4.6 scorer 88 % på PinchBench og 77,6 % på WildClawBench, men bare 33,3 % på ClawBench» — fra forskningsartikkelen

Blant syv testede modeller kom GLM-5 på andreplass med 24,2 prosent, Gemini 3 Flash på 19 prosent, og GPT-5.4 klarte bare 6,5 prosent. Modellene var best på finans- og akademiske oppgaver med standardiserte skjemaer, og svakest på utvikler- og sosiale medier-oppgaver der sidene endrer seg ofte.

>_ NØKKELTALL
33,3 %
Claude Sonnet 4.6, beste resultat
6,5 %
GPT-5.4 på samme oppgaver
153
Oppgaver på 144 ekte plattformer
15
Kategorier fra shopping til jobbsøk

For utviklere som bygger agenter er budskapet tydelig: agenter som ser imponerende ut i demomiljøer, feiler på det virkelige nettet. Infrastrukturen og datasettene er publisert på GitHub.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN