Vera-Bench: KI-agenter faller for 93,9 prosent av sikkerhetsangrepene

Forskerne bak rammeverket Vera, innsendt til arXiv 2. juli 2026, kjørte fire produksjonsklare agent-rammeverk (OpenClaw, Hermes, Codex og Claude Code) gjennom automatiserte sikkerhetstester og målte en gjennomsnittlig angrepssuksessrate på 93,9 prosent under flerkanalsangrep. Tallet gjelder agenter som utfører handlinger via eksterne verktøy, altså akkurat den typen oppsett du bygger når du kobler en modell til filsystem, API-er eller en terminal.

Poenget forfatterne løfter fram er at dagens sikkerhetstesting er skrevet for hånd: eksperter designer bruddscenarioene, og utfallet vurderes av hardkodede regler. Det blir dyrt å vedlikeholde når agentene endrer seg raskt. Vera automatiserer i stedet hele løkka i tre trinn:

Risikooppdagelse: en litteraturdrevet utforskning kartlegger nye risikoer fortløpende og strukturerer dem i taksonomier over risikotyper, angrepsmetoder og verktøymiljøer.
Kombinatorisk sammensetning: systemet setter sammen taksonomiene til kjørbare testtilfeller, hvert med et konkret sikkerhetsmål, en programmatisk oppsatt starttilstand og et deterministisk verifiseringspredikat.
Adaptiv kjøring: agentene kjøres i isolerte sandboxes der en kontrollagent styrer samtalen over flere runder, mens verifikatorer dømmer utfallet ut fra faktisk miljøtilstand og verktøykall.

Det siste trinnet er den metodiske nøkkelen: Vera avgjør om et angrep lyktes ved å inspisere hva agenten faktisk gjorde i miljøet, ikke ved å spørre modellen om den oppførte seg trygt. Ifølge forfatterne er nettopp slik «evidence-grounded» verifisering avgjørende for at testene forblir reproduserbare når agentene stadig endrer seg.

Sammen med paperet slippes Vera-Bench: 1600 kjørbare testtilfeller fordelt på 124 risikokategorier og tre kjøremiljøer, med kode åpent tilgjengelig. At de høyeste suksessratene kom fra flerkanalsangrep, altså angrep plantet gjennom flere inn-kanaler samtidig, peker på at angrepsflaten vokser raskere enn forsvaret når en agent får lov til å lese e-post, hente nettsider og kjøre kommandoer i samme løp.

For deg som setter en agent til å handle på egen hånd, er 93,9-tallet mindre en dom over de fire navngitte rammeverkene enn en påminnelse om at verktøytilgang og angrepsflate henger sammen: jo mer en agent får gjøre, desto mer må sandbox og tilgangsstyring bære.