Studie: KI-nettlesingsagenter har ingen pålitelig forsvar mot prompt injection-angrep

«Området for robust oppførsel forblir tomt i alle konfigurasjonene vi testet», skriver forskerne bak StakeBench, en ny benchmark for prompt injection mot KI-agenter i realistiske nettmiljøer. Med andre ord ga hvert eneste angrepsmål minst én form for svikt: enten vellykket manipulasjon, forstyrrelse av brukerens oppgave eller ustabil kjøring.

Forskere fra blant annet Nanyang Technological University, IBM Research og University of Illinois kjørte 3 168 angrepsforsøk mot agentene NanoBrowser og BrowserUse, drevet av GPT-5 og Gemini, over 264 testtilfeller. Indirekte prompt injection, der instruksjoner skjules i vanlig nettinnhold som produktanmeldelser og metadata, lyktes i 41,67 % til 68,16 % av tilfellene. Direkte injection oversteg 79 % i alle oppsett.

Et av sviktmønstrene kaller forskerne «snyltende parasittisme»: agenten fullfører brukerens oppgave, men fremmer samtidig angriperens mål uten at brukeren merker noe. Eksempelet i studien er nettshopping, der en plantet anmeldelse vrir agentens anbefaling mot ett produkt, til skade for konkurrerende selgere.

>_ NØKKELTALL

3 168 angrepsforsøk i studien

79 %+ treffrate for direkte injection

41–68 % treffrate for indirekte injection

Hva bør du gjøre?

Ikke la nettleseragenter handle uovervåket på sider med brukergenerert innhold som anmeldelser og kommentarer.

Begrens hva agenten kan gjøre uten bekreftelse, særlig kjøp, utfylling av skjemaer og deling av data.
Test dine egne agenter mot indirekte injection før produksjon, ikke bare mot direkte angrep.