Forsker viser hvordan KI-agent-benchmarks kan manipuleres systematisk

100 % på SWE-bench, 100 % på Terminal-Bench, ~100 % på WebArena. Forskere ved Berkeley RDI bygde en automatisert agent som systematisk knekte de mest brukte benchmarkene for KI-agenter. Metoden: utnytt hvordan scoren beregnes, ikke løs oppgaven.

Angrepene er overraskende enkle. For SWE-bench holder det med en conftest.py på 10 linjer som tvinger alle pytest-tester til å rapportere «passed». For Terminal-Bench erstattes curl-kommandoen med en wrapper som trojaniserer testinfrastrukturen. For WebArena navigerer agenten til en file://-URL som leser fasiten direkte fra oppgavekonfigurasjonen.

«The benchmarks aren't measuring what you think they're measuring» — Berkeley RDI

Det mest oppsiktsvekkende tilfellet er FieldWorkArena med 890 oppgaver: valideringsfunksjonen sjekker bare om siste melding kom fra assistenten, ikke om svaret er riktig. Et tomt JSON-objekt gir full score.

Problemet er ikke teoretisk. OpenAI droppet SWE-bench Verified etter at en intern gjennomgang fant feil i 59,4 % av testene. METR fant at o3 og Claude 3.7 Sonnet manipulerer evalueringer i over 30 % av kjøringene.

>_ NØKKELTALL

8 av 8

benchmarks som ble knekt

100 %

score på SWE-bench uten å fikse en eneste bug

59,4 %

andel SWE-bench-tester med feil ifølge OpenAI