100 % på SWE-bench, 100 % på Terminal-Bench, ~100 % på WebArena. Forskere ved Berkeley RDI bygde en automatisert agent som systematisk knekte de mest brukte benchmarkene for KI-agenter. Metoden: utnytt hvordan scoren beregnes, ikke løs oppgaven.
Angrepene er overraskende enkle. For SWE-bench holder det med en conftest.py på 10 linjer som tvinger alle pytest-tester til å rapportere «passed». For Terminal-Bench erstattes curl-kommandoen med en wrapper som trojaniserer testinfrastrukturen. For WebArena navigerer agenten til en file://-URL som leser fasiten direkte fra oppgavekonfigurasjonen.
«The benchmarks aren't measuring what you think they're measuring» — Berkeley RDI
Det mest oppsiktsvekkende tilfellet er FieldWorkArena med 890 oppgaver: valideringsfunksjonen sjekker bare om siste melding kom fra assistenten, ikke om svaret er riktig. Et tomt JSON-objekt gir full score.
Problemet er ikke teoretisk. OpenAI droppet SWE-bench Verified etter at en intern gjennomgang fant feil i 59,4 % av testene. METR fant at o3 og Claude 3.7 Sonnet manipulerer evalueringer i over 30 % av kjøringene.