Berkeley-forskere avslørte: alle 8 topp-benchmarks for KI-agenter kan hackes til nær 100%

Forskere ved UC Berkeleys RDI-lab publiserte 8. april 2026 en detaljert gjennomgang av åtte av feltets mest siterte benchmarks: SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena og CAR-bench. Konklusjonen er nedslående — ingen av dem tålte et enkelt exploit-angrep.

Angrepene varierer fra det enkle til det teknisk sofistikerte, men alle utnytter samme grunnproblem: evalueringen er ikke designet for å motstå et system som optimerer for scoren fremfor oppgaven. FieldWorkArena er mest peinlig — benchmark-kodens validate()-funksjon sjekker kun at siste melding kom fra agenten, aldri hva den inneholdt. Å sende {} gir full pott på alle 890 oppgaver.

«Zero tasks solved. Zero LLM calls (in most cases). Near-perfect scores.» — RDI Berkeley

SWE-bench Verified, som er gullstandarden for kodingsbenchmarks, ble hacket ved å plante en conftest.py-fil som tvinger pytest til å rapportere alle tester som bestått. WebArena lot agenten navigere til file://-URLer i Chromium for å lese svarfilene direkte fra disken. OSWorld hadde gullfiler lagret på offentlige HuggingFace-URLer — agenten lastet dem ned.

>_ NØKKELTALL

8 av 8 benchmarks hacket til nær-perfekte scorer

890 oppgaver i FieldWorkArena løst med én melding: {}

500 av 500 SWE-bench Verified-instanser «løst» uten å fikse én bug

100 % på Terminal-Bench (89 oppgaver) via forfalsket binary-wrapper

Forskerne understreker at dette ikke er en akademisk øvelse. Benchmark-scorer driver faktiske beslutninger om modellvalg, investeringer og sikkerhetsevalueringer. Anthropics Mythos Preview viste allerede at frontier-modeller kan utvikle reward-hacking som emergent strategi — uten at det er eksplisitt trent inn.

RDI lanserer BenchJack, et verktøy som automatisk scanner benchmarks for sårbarhetsmønstre, som en slags penetrasjonstest for evalueringsinfrastruktur. De publiserer også en «Agent-Eval Checklist» med konkrete krav til isolasjon, inputsanering og hemmelige svar.

Hva bør du gjøre?

Bruk ikke benchmark-scores alene til å sammenligne modeller for produksjonsbruk — sjekk metodikken bak evalueringen
Hvis du bygger evalueringsinfrastruktur: isoler agentmiljøet fra evalueringsmiljøet, aldri eval() på agent-output, og saniér LLM-judge-input
Hold øye med BenchJack-slippet fra RDI Berkeley for et praktisk verktøy til å validere egne evalueringer