Forskere ved UC Berkeleys RDI-lab publiserte 8. april 2026 en detaljert gjennomgang av åtte av feltets mest siterte benchmarks: SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena og CAR-bench. Konklusjonen er nedslående — ingen av dem tålte et enkelt exploit-angrep.
Angrepene varierer fra det enkle til det teknisk sofistikerte, men alle utnytter samme grunnproblem: evalueringen er ikke designet for å motstå et system som optimerer for scoren fremfor oppgaven. FieldWorkArena er mest peinlig — benchmark-kodens validate()-funksjon sjekker kun at siste melding kom fra agenten, aldri hva den inneholdt. Å sende {} gir full pott på alle 890 oppgaver.
«Zero tasks solved. Zero LLM calls (in most cases). Near-perfect scores.» — RDI Berkeley
SWE-bench Verified, som er gullstandarden for kodingsbenchmarks, ble hacket ved å plante en conftest.py-fil som tvinger pytest til å rapportere alle tester som bestått. WebArena lot agenten navigere til file://-URLer i Chromium for å lese svarfilene direkte fra disken. OSWorld hadde gullfiler lagret på offentlige HuggingFace-URLer — agenten lastet dem ned.
{}Forskerne understreker at dette ikke er en akademisk øvelse. Benchmark-scorer driver faktiske beslutninger om modellvalg, investeringer og sikkerhetsevalueringer. Anthropics Mythos Preview viste allerede at frontier-modeller kan utvikle reward-hacking som emergent strategi — uten at det er eksplisitt trent inn.
RDI lanserer BenchJack, et verktøy som automatisk scanner benchmarks for sårbarhetsmønstre, som en slags penetrasjonstest for evalueringsinfrastruktur. De publiserer også en «Agent-Eval Checklist» med konkrete krav til isolasjon, inputsanering og hemmelige svar.
Hva bør du gjøre?
- Bruk ikke benchmark-scores alene til å sammenligne modeller for produksjonsbruk — sjekk metodikken bak evalueringen
- Hvis du bygger evalueringsinfrastruktur: isoler agentmiljøet fra evalueringsmiljøet, aldri
eval()på agent-output, og saniér LLM-judge-input - Hold øye med BenchJack-slippet fra RDI Berkeley for et praktisk verktøy til å validere egne evalueringer