En nettside trenger ikke å bryte sperrene direkte. Sikkerhetsselskapet LayerX demonstrerer i et proof-of-concept, omtalt av Ars Technica 30. juni, at den i stedet kan overtale den innebygde språkmodellen om at virkeligheten ikke lenger gjelder. Angrepssiden ber nettleseren vinne et spill ved å løse en gåte, men gåten belønner gale svar: 2 + 2 = 5. Når modellen aksepterer at fasiten ikke lenger er 4, glir den inn i en tilstand der den behandler konteksten som fantasi.
I den tilstanden oppfører modellen seg som om handlingene ikke har konsekvenser i den virkelige verden. Da har angriperen fritt spillerom til å invokere destruktive handlinger: hente kode fra et privat GitHub-repo, eller trekke ut innlogginger fra nettleserens innebygde passordbehandler. Mekanismen rammer KI-nettlesere som kan både surfe og utføre handlinger på dine vegne, der skillet mellom «å lese en side» og «å instruere en agent» viskes ut.
«KI-en opererer ut fra antakelsen om at konteksten er ekte, og at oppførselen derfor må holde seg innenfor sikkerhetssperrene. Men hvis vi kan lure KI-en til å endre konteksten til fantasi, der reglene er oppdiktet og alt er lov, kan den oppføre seg som om handlingene ikke har konsekvenser.» — Roy Paz, forsker hos LayerX
Poenget LayerX understreker er at sperrene er reaktive. De behandler symptomer, ikke årsaken. Selskapet sammenligner det med at en bilprodusent ber om nye veidesign i stedet for å fikse feilene som gjør bilen ulykkesutsatt. Så lenge sikkerheten ligger i modellens kontekstforståelse fremfor i et lag som faktisk håndhever tilgang, vil nye kontekst-manipulasjoner fortsette å dukke opp.
Hva bør du gjøre?
Behandle KI-nettlesere som upålitelige når de både surfer ukjente sider og har tilgang til sensitive ressurser samtidig. Ikke koble en agentisk nettleser til passordbehandleren eller la den ha lesetilgang til private repoer mens den besøker sider du ikke stoler på, og hold sensitive sesjoner i en separat, ren nettleserprofil uten lagrede innlogginger. For deg som bygger agenter selv: legg tilgangskontroll i et eget håndhevingslag utenfor modellens kontekst, slik at en manipulert prompt ikke kan tale seg forbi det.