«Området for robust oppførsel forblir tomt i alle konfigurasjonene vi testet», skriver forskerne bak StakeBench, en ny benchmark for prompt injection mot KI-agenter i realistiske nettmiljøer. Med andre ord ga hvert eneste angrepsmål minst én form for svikt: enten vellykket manipulasjon, forstyrrelse av brukerens oppgave eller ustabil kjøring.
Forskere fra blant annet Nanyang Technological University, IBM Research og University of Illinois kjørte 3 168 angrepsforsøk mot agentene NanoBrowser og BrowserUse, drevet av GPT-5 og Gemini, over 264 testtilfeller. Indirekte prompt injection, der instruksjoner skjules i vanlig nettinnhold som produktanmeldelser og metadata, lyktes i 41,67 % til 68,16 % av tilfellene. Direkte injection oversteg 79 % i alle oppsett.
Et av sviktmønstrene kaller forskerne «snyltende parasittisme»: agenten fullfører brukerens oppgave, men fremmer samtidig angriperens mål uten at brukeren merker noe. Eksempelet i studien er nettshopping, der en plantet anmeldelse vrir agentens anbefaling mot ett produkt, til skade for konkurrerende selgere.
Hva bør du gjøre?
- Ikke la nettleseragenter handle uovervåket på sider med brukergenerert innhold som anmeldelser og kommentarer.
- Begrens hva agenten kan gjøre uten bekreftelse, særlig kjøp, utfylling av skjemaer og deling av data.
- Test dine egne agenter mot indirekte injection før produksjon, ikke bare mot direkte angrep.