BioShocking: Nytt angrep lurer KI-nettlesere til å tro at 2+2=5

Sikkerhetsselskapet LayerX har demonstrert et prompt injection-angrep som narrer KI-drevne nettlesere til å behandle skadelige handlinger i den virkelige verden som trekk i et fiktivt spill. En ondsinnet nettside presenterer en BioShock-inspirert gåte der «feil» svar belønnes. Det lærer agenten at normale regler ikke gjelder, og i siste steg blir den bedt om å besøke et GitHub-repo og dele sensitive data, inkludert passord.

Kjernen i sårbarheten er at agentene ikke skiller mellom en oppdiktet scenario-kontekst og reelle, sensitive operasjoner. Da alle seks testede agenter kom til det siste steget, kompromittering av brukerens legitimasjon, klarte ingen av dem å se at handlingen brøt med deres egne sikkerhetsvakter.

«Da agentene forsto reglene og lærte at «feil» handlinger er akseptable, var de ikke lenger bundet til virkeligheten.» — LayerX

Angrepet ble testet mot ChatGPT Atlas, Comet, Fellou, Genspark Browser, Sigma Browser og Claude Chrome-pluginen. LayerX varslet leverandørene allerede i oktober i fjor. Kun OpenAI har rullet ut en fungerende fiks i ChatGPT Atlas. Anthropic forsøkte å tette hullet i sin Chrome-plugin, men patchen stopper ikke proof-of-concept-en ifølge LayerX. Perplexity lukket rapporten uten å fikse noe, og tre leverandører svarte aldri.

For deg som bygger eller bruker agentiske nettlesere betyr dette at guardrails basert på modellens egen dømmekraft ikke holder mot kontekstmanipulasjon. Forsvaret må ligge utenfor modellen: eksplisitt brukerbekreftelse på sensitive handlinger, hardere kontekstsjekker og avgrenset tilgang per sesjon.

Hva bør du gjøre?

Krev manuell bekreftelse på sensitive handlinger som skriveoperasjoner, deling av data og tilgang til hemmeligheter i egne agent-oppsett, i stedet for å la modellen avgjøre alene. Begrens agentens tilgang til sensitive tjenester via plattformens innstillinger, og gi hver agent-sesjon minst mulig scope. Er du på en av de berørte nettleserne, er ChatGPT Atlas foreløpig den eneste med en fungerende fiks, mens de øvrige fem fortsatt er eksponert ifølge LayerX-rapporten.