Red team gjorde Claude Desktop til dobbeltagent med forgiftede preferanser

«Etter å ha vurdert innsendingen din, har vi fastslått at dette ikke er en sikkerhetssårbarhet innenfor programmets omfang. Trusselmodellen vår behandler personlige preferanser, ferdigheter og MCP-koblinger som funksjoner som kan kjøre kode gjennom Claude Desktop, som tilsiktet» — Anthropic

Slik svarte Anthropic da red team-selskapet Pentera Labs meldte funnet. Ifølge The Register kompromitterte forskerne Dvir Avraham og Reef Spektor en utviklers Claude-konto via en overtatt e-postinnboks, og gjorde deretter den betrodde assistenten om til det de kaller en dobbeltagent. De laget en base64-kodet instruksjon og limte den inn i ofrets personlige preferanser i Claude. Fordi preferansene synkroniserer på tvers av alle enheter og økter knyttet til kontoen, lastes den forgiftede instruksjonen stille inn neste gang brukeren åpner appen og skriver noe.

Instruksjonen ba Claude sjekke om maskinen hadde kommando-kapable verktøy, som Desktop Commander eller en annen MCP-kobling. Fantes et slikt verktøy, kjørte Claude et skjult reverse shell. Fantes det ikke, ble Claude et «phishing-lag» som viste en realistisk feilmelding med en lenke og steg-for-steg-instruksjoner som lurte brukeren til selv å kjøre den angriperkontrollerte koden. I testen lot forskerne Claude kontakte en server de styrte ved hver interaksjon og hente nye kommandoer, slik at brukeren selv matet en vedvarende C2-kanal.

Det tekniske poenget er at ingenting her er en tradisjonell «bug». Angrepet utnytter funksjoner Anthropic bygget med vilje: preferanser, ferdigheter og MCP-koblinger som kan kjøre kode. Cowork-funksjonen fra januar, som kjører lengre agent-oppgaver, fjerner til og med behovet for phishing-steget fordi den kan kjøre kommandoer på egen hånd. Målet var en utvikler med tilgang til flere interne systemer, et vanlig utgangspunkt for angripere fordi utviklere sitter på API-nøkler, tokens og sky-legitimasjon.

Hva bør du gjøre?

Behandle KI-skrivebordsapper som privilegert programvare på linje med annet som kan kjøre kode og lese filer, og overvåk endringer i synkroniserte innstillinger og preferanser.

Begrens hvilke utvidelser og MCP-koblinger som kan installeres ved siden av KI-apper, og godkjenn aldri en install-melding eller feilmelding blindt fordi den kommer fra assistenten.
Kjør agent-oppgaver med kodekjøring i en sandkasse eller virtuell maskin, ikke på maskinen der du har produksjonslegitimasjon.