Utgangspunktet er AI Security Institute (AISI)s rapport om Anthropics upubliserte modell Mythos, en spesialisert sikkerhetsmodell som er sterk nok til at Anthropic nekter å gi den ut offentlig. AISI testet modellen på «The Last Ones» — en 32-stegs simulert nettverksangrep som normalt tar 20 menneskelige timer. Mythos fullførte oppgaven i 3 av 10 forsøk. De andre modellene klarte den ikke én gang.
«If Mythos continues to find exploits so long as you keep throwing money at it, security is reduced to a brutally simple equation: to harden a system you need to spend more tokens discovering exploits than attackers will spend exploiting them.» — Drew Breunig, dbreunig.com
Prislappen bekrefter poenget: AISI brukte 100 millioner tokens per forsøk — rundt 12 500 dollar per kjøring, 125 000 dollar for alle ti. Og ingen modell viste tegn til avtagende avkastning innenfor dette budsjettet.
Breunig trekker to praktiske konsekvenser. Den første: open source-programvare blir viktigere, ikke mindre. Linus-loven om at «gitt nok øyne er alle feil overfladiske» utvides til tokens — store OSS-biblioteker vil bli hardnet av kollektiv kapital, trolig bedre enn din private løsning. Den andre: agentkodingsarbeidsflyten får en tredje fase etter utvikling og kodegjennomgang — aktiv herding med dedikert budsjett.
Hva bør du gjøre?
- Ta i bruk automatisert sikkerhetsscanning i CI/CD allerede nå — Anthropics kodegjennomgangsprodukt koster 15–20 dollar per PR og dekker et bredere trussellandskap enn statisk analyse alene
- Prioriter herding av avhengigheter i store, delte biblioteker fremfor egne implementasjoner — volumet av tokens som angriper populære OSS-pakker er høyere, men forsvarssiden er det òg
- Sett av et eksplisitt sikkerhetsbudsjett i agentkodingsprosjekter — ikke forutsett at koden er sikker fordi den «ser OK ut»