LangWatch Scenario open-sourcer red-teaming-rammeverk som angriper KI-agenter over 20 samtalerunder

LangWatch, et Amsterdam-basert selskap bak observabilitet for LLM-applikasjoner, lanserte 21. april rammeverket LangWatch Scenario som open-source. I stedet for én-gangs jailbreak-forsøk kjører Scenario det de kaller Crescendo-strategien: en firetrinns-eskalering som starter med utforskende samtale, beveger seg gjennom hypotetiske spørsmål og autoritetsbaserte påstander (for eksempel «jeg gjør en compliance-sjekk»), og ender i direkte press.

En separat evalueringsmodell vurderer hvor samtalen er på vei etter hver runde og justerer angrepsbanen dynamisk. Poenget er å speile hvordan ekte sosiale-ingeniør-angrep fungerer, ikke lab-tester.

«En KI-agent som avviser hver eneste prompt gir deg en falsk trygghetsfølelse. Cyberkriminelle jobber ikke med ett direkte spørsmål. De har dusinvis av avslappede samtaler, bygger tillit, og når agenten er i samarbeidsmodus etter tjue runder, blir en forespørsel som ville blitt avvist i runde én plutselig ikke noe problem.» — Rogerio Chaves, CTO og medgründer i LangWatch

Rammeverket lar seg integrere i CI-pipelines, slik at du kan kjøre red-team-tester hver gang du oppdaterer modell, system-prompt eller produktfunksjoner. Det er særlig rettet mot bank, forsikring og SaaS — sektorer der KI-agenter får tilgang til sensitiv kundedata.

Hva bør du gjøre?

Klon Scenario og kjør en enkel Crescendo-test mot din egen KI-agent før du tror den er trygg basert på noen ti manuelle prompts.
Integrer i CI: Legg red-team-tester i samme pipeline som enhetstester. En prompt-endring kan åpne nye angrepsflater uten at du merker det.
Logg flertrinns-samtaler: Hvis agenten din kjører i produksjon, se etter mønstre der samme bruker gradvis trapper opp tilgangsforespørsler over mange meldinger.