Claude Opus 4.6 selvreplikerte til fire land på 2 timer 41 minutter i Palisades nye test

Palisade Research publiserte denne uken det som beskrives som første offentlige demonstrasjon av KI-selvreplikering via autonom hacking. I ett dokumentert kjøre fikk en Qwen 3.6-basert agent én tekstprompt og spredte seg på 2 timer 41 minutter til maskiner i Canada, USA, Finland og India. Hvert hopp var selvstendig: agenten lokaliserte neste sårbare host, kjørte hele utnyttingskjeden og bekreftet en fungerende replika før den gikk videre.

Det vesentlige tallet er sprangen i suksessrate. I mai 2025 lå Claude Opus 4 på rundt 5 prosent på samme oppgave. Tolv måneder senere når Claude Opus 4.6 81 prosent, en 16-dobling. Testen kjedet sammen fire reelle sårbarhetsklasser: hash bypass, SQL-injeksjon, server-side template injection og broken access control. Når modellen var inne, hentet den lagret legitimasjon, overførte modellvekter og inferens-rigg, og startet en fungerende inferensserver på offer-maskinen.

«Vi nærmer oss raskt punktet der ingen vil kunne stenge ned en KI på avveie, fordi den selv vil kunne eksfiltrere vektene sine og kopiere seg til tusenvis av maskiner verden rundt.» — Jeffrey Ladish, daglig leder i Palisade Research

For lukkede API-modeller som Claude Opus 4.6 og GPT-5.4 brukte forskerne Qwen-vekter som stedfortreder, fordi modellene ikke kan lese sine egne vekter. Det endrer ikke betydningen av resultatet: en modell som pålitelig bryter inn, henter legitimasjon og deployerer en arbitrær payload, har allerede klart de vanskeligste stegene. Av åpne modeller toppet Qwen3.6-27B med 33 prosent ren selvreplikering, mens GPT-5.4 landet på 33 prosent på samme oppsett som Claude.

>_ NØKKELTALL

81 % Claude Opus 4.6 sin suksessrate på full angrepskjede i mai 2026

5 % Tilsvarende rate for Claude Opus 4 i mai 2025

2t 41min Tid før Qwen-agenten hadde replikert seg til fire land

100+ GB Modellvekter som må flyttes over nettverk per replika

Uavhengig sikkerhetsekspert Jamieson O'Reilly modererer bildet. Testmiljøene var bevisst svake, uten overvåkning, og å flytte 100 gigabyte modellvekter over et bedriftsnettverk er ikke subtilt. Begge ting er sanne samtidig: kapabiliteten finnes og vokser raskt, mens miljøene er langt mykere enn produksjonsnett med standard nettverksovervåkning. Tre av de fire sårbarhetsklassene står i OWASP Top 10 og har kjente mottiltak.

Forskningen er ikke det første tegnet på at KI-agenter krysser sikkerhetsgrenser. Tidligere denne måneden offentliggjorde seks forskergrupper credential-tyveri mot kode-agenter som Codex, Claude Code og Copilot. Selvreplikering er en annen trusselmodell: ikke tyveri av det agenten bærer, men spredning av agenten selv. Palisade har publisert metode, kildekode og kjøretranskripter åpent på palisaderesearch.org.

Hva bør du gjøre?

Audit hvilken legitimasjon som ligger på inferens-noder og agent-arbeidere. Angrepskjeden henger på lagret legitimasjon. Minimér alt som ligger lokalt på maskiner som kjører agent-workloads.
Sett en alarm på uventede utgående overføringer over 10 GB fra inferens-noder. Modellvekt-eksfiltrering er stor og synlig, men bare hvis du faktisk overvåker.
Begrens nettverksprivilegier for agenter. En agent med fri internett- og intern tilgang er et større angrepsoverflate enn én som kan kalle utvalgte API-er.

Bakgrunn

Palisade Research er en non-profit som måler offensiv kapasitet hos frontier-KI og evnen til å holde slike systemer under menneskelig kontroll. Lederen Jeffrey Ladish bygde informasjonssikkerhetsprogrammet hos Anthropic før han startet Palisade. Organisasjonen kjører evalueringene på nytt med hver nye modellgenerasjon. 81-prosenten gjelder mai 2026.