Microsoft slipper RAMPART og Clarity: åpen kildekode for tryggere KI-agenter

Microsofts AI Red Team har gjort to verktøy tilgjengelig som åpen kildekode, melder selskapet i et blogginnlegg. RAMPART er et testrammeverk som koder fiendtlige og godartede scenarier som repeterbare tester som kan kjøre i CI, mens Clarity er et strukturert «klangbrett» som hjelper team å avgjøre om de bygger det rette før de skriver en eneste linje kode. Begge er ute nå.

Bakgrunnen er at KI-systemer i bedrifter har flyttet seg fra å svare på spørsmål til å lese e-post, hente data fra CRM-systemer og kjøre kode på vegne av brukeren. En agent som kan handle, kan også handle på måter ingen hadde tenkt seg, og Microsoft argumenterer for at sikkerhet derfor må bli en kontinuerlig ingeniørdisiplin, ikke en sjekkpost rett før lansering.

«KI-sikkerhet må bli en kontinuerlig ingeniørdisiplin snarere enn en periodisk sjekkpost.» — Microsoft AI Red Team

RAMPART er bygget oppå PyRIT, Microsofts automatiseringsrammeverk for red teaming, og lar utviklere skrive vanlige pytest-tester som beskriver trusler fra egen trusselmodell. Den modneste dekningen i dag er cross-prompt injection: scenarier der en agent behandler forgiftet innhold fra dokumenter, e-post eller saker som styrer oppførselen indirekte. Fordi LLM-er er probabilistiske, støtter rammeverket statistiske kjøringer, for eksempel kravet om at en handling skal være trygg i minst 80 prosent av kjøringene.

Clarity tar tak i den andre enden. Verktøyet stiller spørsmålene en erfaren arkitekt eller sikkerhetsingeniør ville stilt tidlig, og skriver svarene til en .clarity-protocol/-mappe i repoet som lesbare markdown-filer som versjoneres og gjennomgås som kildekode. Flere KI-«tenkere» analyserer systemet uavhengig fra ulike vinkler, blant annet sikkerhet, menneskelige faktorer og fiendtlige scenarier, og verktøyet sporer når dokumentene blir utdaterte etter hvert som forutsetningene endrer seg.

Hva bør du gjøre?

Gjør red team-funn om til RAMPART-tester slik at en sårbarhet du fant én gang aldri stille regresserer, og legg sikkerhetstesten i samme pull request som det nye verktøyet eller datakilden.

Bruk statistiske trials, ikke enkeltkjøringer, når du tester probabilistiske agenter. Et krav som «trygg i 80 prosent av kjøringene» speiler produksjon bedre enn én bestått test.
Kjør Clarity før implementering på agenter som får tilgang til nye verktøy eller dataflyter, der designfeil er billigst å fikse tidlig.