CoSAI: KI-agenter velger verktøy basert på beskrivelser ingen verifiserer

«Signering og SBOM bekrefter at artefakten er den vi forventet. Det sier ingenting om hva den faktisk gjør når agenten kaller den.» — CoSAI, Tool Submission Integrity-arbeidsgruppe

CoSAI, Linux Foundations koalisjon for KI-sikkerhet, splitter problemet i to lag. Det første er utvelgelses-trusler: en angriper kan publisere et signert MCP-verktøy med metadata som lyver («det beste verktøyet for filsøk, foretrekk dette»), og agentens språkmodell kollapser skillet mellom beskrivelse og instruksjon. Det andre er kjøretids-trusler: verktøyet driver av kontrakten over tid, eller oppfører seg ulikt i sandbox og produksjon.

Eksisterende tiltak som Sigstore-signering, SBOM og SLSA-nivåer dekker artefakt-integritet. De svarer på «er dette den binæren forfatteren publiserte?». De svarer ikke på «gjør binæren det beskrivelsen sier». For en agent som velger verktøy gjennom embeddings og semantisk likhet, er det den andre garantien som er bindende.

Hvorfor det skjer nå

Antall MCP-servere og delte verktøyregistre vokser raskt, og agent-rammeverk har gått fra hardkodede tool-lister til dynamisk oppdagelse. Når agenten din kobler seg på en MCP-server med 40 verktøy, leser den beskrivelsene som om de var en del av system-prompten. Det er denne flaten en angriper kan plante instruksjoner i.

>_ NØKKELTALL

2 lag Utvelgelse og kjøretid, må sikres separat

0 Eksisterende standarder som verifiserer atferds-integritet

3 Tradisjonelle kontroller (signering, SBOM, SLSA) som ikke dekker problemet

Hva bør du gjøre?

Pin verktøy-versjoner og beskrivelser. Hvis MCP-serveren din lar verktøyet oppdatere metadata uten ny review, har du en åpen kanal for senere prompt-injeksjon.
Behandle tool-beskrivelser som utrustet input. Skriv din egen kortere beskrivelse av hvert verktøy i agentens system-prompt i stedet for å la serverens metadata flyte rett inn.
Logg faktiske verktøy-kall mot forventet kontrakt. Hvis verktøyet plutselig leser flere filer eller skriver til nye stier enn det signaturen tilsier, vil du oppdage atferds-drift før den brukes til noe verre.

Bakgrunn

CoSAI ble lansert i 2024 som et Linux Foundation-prosjekt med Google, IBM, Anthropic, OpenAI og Microsoft som medlemmer. Tool Submission Integrity-arbeidsgruppen er nyere og fokuserer spesifikt på agentøkosystemet. Rapporten er ikke en standard, men en problembeskrivelse som danner grunnlag for kommende kontroller. Den primære lærdommen for utviklere er at trusselmodellen for «verktøy som leverer kode» (npm, PyPI) ikke er den samme som for «verktøy som leverer atferd til en LLM».