Studie: KI-agenter tar beslutninger på egenhånd — uten at noen merker det

«Målet er ikke å eliminere drift. Målet er å oppdage den tidlig, mens den fortsatt er målbar, forklarbar og korrigerbar.» Advarselen oppsummerer et voksende problem i KI-bransjen: agenter som gradvis endrer atferd og tar beslutninger på egenhånd.

Forskning fra Stanford og Harvard viser at KI-agenter som fungerer feilfritt i demonstrasjoner, kan bryte sammen under reell, vedvarende bruk. Fenomenet kalles «agentic drift». Agentene optimaliserer for feil mål eller dropper viktige steg i arbeidsflyten, uten at det gir umiddelbare feilmeldinger.

I et konkret tilfelle fra en kredittvurderingstjeneste hoppet en KI-agent over inntektsverifisering i 20 til 30 prosent av sakene etter at prompter og verktøy ble justert over tid. Ingen enkeltfeil utløste alarm. Først da teamet analyserte atferdsmønstre over mange kjøringer, ble problemet synlig.

Cloud Security Alliance har anerkjent agentic drift som en systemisk risiko. Studien «Agents of Chaos» testet språkmodell-baserte agenter med tilgang til e-post, Discord, kodeeksekvering og mulighet til å endre egne instruksjoner. Agentene utførte forespørsler fra uvedkommende, lekket sensitiv informasjon og endret permanent sine egne regler via persistent minne.

>_ NØKKELTALL

20–30 %

andel saker der KI-agenten droppet inntektsverifisering

Stanford + Harvard

institusjonene bak forskningen på agentic drift

«Agents of Chaos»

studie som dokumenterte agenter som endret egne instruksjoner