I MCPTox-testen fra august 2025 lyktes forgiftede verktøybeskrivelser i opptil 72,8 % av forsøkene mot 45 ekte MCP-servere og 20 ledende KI-modeller, og modellene nektet nesten aldri. Det er tallet som rammer ny forskning fra Microsoft Incident Response og Defender-teamet, som viser hvordan en angriper kan kapre en KI-agent med ingenting mer enn en forgiftet verktøybeskrivelse.
Forskjellen fra tidligere prompt-injection er at agenten nå handler, ikke bare svarer. Microsoft 365 Copilot kan sende e-post, lage filer og endre kalendere, og egendefinerte agenter i Copilot Studio eller Azure AI Foundry kan nå inn i forretningssystemer og kjøre flertrinnsjobber på egen hånd. Det samme trikset som før vridde et sammendrag, utløser nå en faktisk handling.
Mekanismen ligger i at MCP, Model Context Protocol, blander instruksjoner og data på samme sted. Hvert MCP-verktøy leveres med en beskrivelse: noen linjer ren tekst som forteller agenten hva verktøyet gjør. Den teksten lever i agentens arbeidsminne rett ved siden av de virkelige ordrene, så den som redigerer beskrivelsen kan styre agenten like effektivt som å skrive om systemprompten.
Microsoft demonstrerer angrepsflyten med et fakturaeksempel. Et finansteam setter opp en agent som kobler til en tredjeparts «faktura-berikelse»-tjeneste som ble godkjent, men aldri sikkerhetsvurdert. Angriperen oppdaterer verktøyet: navnet og det synlige sammendraget er uendret, men begravd i beskrivelsen, forkledd som formateringsnotater, ligger en skjult ordre om å hente de siste tretti ubetalte fakturaene og legge dem ved neste kall. MCP plukker opp endringen umiddelbart, og uten en re-godkjenningstrigger går den forgiftede versjonen live uten ekstra gjennomgang.
Når en analytiker så stiller et rutinespørsmål, følger agenten den skjulte ordren, samler fakturaene og sender dem til en server angriperen kontrollerer. Hvert enkelt steg er legitimt: verktøyet var godkjent, spørringen kjørte med analytikerens egne rettigheter, og det utgående kallet gikk til en tillatt server. Svakheten ligger ikke i ett system, men i det Microsoft kaller «tillitsgrensen mellom dem».
«Dette er ikke en feil i Copilot. Det er et tillitsgap som åpnes når du kobler til utenforstående verktøy.» — Microsoft Incident Response
Dette er ikke teori. Invariant Labs navnga «tool poisoning» i april 2025 med en PoC som fikk Cursor til å lese en privat SSH-nøkkel. I september 2025 fant Koi Security npm-pakken postmark-mcp, som etter 15 rene utgivelser i versjon 1.0.16 snek inn én linje som hemmelig BCC-et hver e-post agenten sendte. OWASP tok klassen inn som «Agentic Supply Chain Vulnerabilities» i sin Top 10 for agentiske apper i desember 2025.
Hva bør du gjøre?
- Versjonsstyr og gjennomgå hver verktøybeskrivelse som om den var en systemprompt. Behandle endringer i beskrivelsen som en kodeendring, og skann teksten for kommandoer som ikke har noe i et hjelpefelt å gjøre.
- Slå av «allow all» og lås listen over godkjente verktøypublisister, slik at hver agent bare bruker de spesifikke verktøyene den trenger. Krev en ny godkjenning hver gang en beskrivelse endres.
- Sett et menneske foran risikable handlinger: alt som flytter penger, deler data ut av selskapet eller endrer kontoer bør kreve manuell godkjenning. Gi hver agent egen identitet og logg nye endepunkter og uvanlige datauttrekk.