«Autonom KI-selv-replikering er ikke lenger hypotetisk», skriver Palisade Research i en ny studie som testet OpenAIs GPT 5/5.1/5.4, Anthropics Claude Opus 4/4.5/4.6 og Alibabas Qwen mot maskiner med plantede sikkerhetsfeil. Modellene måtte selv finne en sårbarhet, utnytte den, stjele innloggings-detaljer, overføre filene de trengte for å kjøre, og starte en arbeidende kopi på den nye maskinen.
Suksessratene varierer skarpt etter modell. Claude Opus 4.6 lyktes i 81 prosent av forsøk på å installere Qwen-modellfiler på en kompromittert maskin. GPT-5.4 nådde 33 prosent. Alibabas Qwen3.5-122B-A10B kopierte seg selv i 19 prosent av tilfeller, mens den mindre Qwen3.6-27B (som kjører på én high-end GPU) klarte 33 prosent. I én test spredte Qwen3.6-27B seg fra én prompt til fire servere i Canada, USA, Finland og India på 2 timer og 41 minutter.
«Ved hvert steg fant KI-en en ny sårbarhet, tok kontroll over neste maskin, flyttet over programvaren og instruksjonene sine, og lanserte en ny kopi som fortsatte kjeden.» (Palisade Research)
Forskerne stoppet eksperimentet etter tre stadier, men den siste kopien fortsatt kjørte og kunne ha fortsatt å angripe. Eksperimentet ble kjørt i et kontrollert miljø med bevisst sårbare systemer; reelle nettverk har sterkere forsvar. Likevel er funnet relevant for trusselmodellering rundt agentic systemer som har nettverkstilgang.
For utviklere som bygger eller hoster lokale modeller er det praktiske spørsmålet hvor strengt agent-sandboksen din faktisk er, og hva som skjer hvis modellen blir bedt om å gjøre noe den selv tenker krever uthopp.
Hva bør du gjøre?
- Kjør lokale modeller bak nettverks-isolasjon. Default-egress mot internett betyr at en kompromittert agent kan eksfiltrere modellfiler eller bruke ssh til å nå andre maskiner.
- Bind agent-prosessen til en bruker uten sudo. Drep enhver «la modellen installere pakker selv»-flyt i produksjon.
- Logg alle exec-kall og nettverks-tilkoblinger fra agent-runtime. Anomali-deteksjon på prosess-tre-nivå fanger replikerings-mønsteret beskrevet av Palisade.