Googles Secure Mode i Antigravity kunne omgås: Pillar Security viste at native tool `find_by_name` ga RCE

Googles «Secure Mode» lovet virtuell sandkasse, strammere nettverkstilgang og skriving bare innenfor arbeidskatalogen. Pillar Security publiserte denne uken detaljer på hvordan barrieren kunne omgås fullstendig på den KI-drevne utviklerassistenten Antigravity.

Svakheten lå i kombinasjonen av to ting. Først: Antigravity har et fil-søkeverktøy kalt find_by_name, klassifisert som «native» system-tool. Det betyr at agenten kan kalle det direkte, før Secure Mode får evaluere kommandoen. Andre: Antigravity skiller dårlig mellom tekst den leser som kontekst og tekst som inneholder instruksjoner til agenten selv. En angriper kan dermed gjemme prompt-injeksjoner i en open-source-fil, en README eller en webside, og bruke dem til å lokke find_by_name inn i en filoperasjon som gir vilkårlig kodeutførelse.

«Secure Modes sikkerhetsgrense ser rett og slett aldri dette kallet. Det betyr at en angriper oppnår vilkårlig kodeutførelse under nøyaktig den konfigurasjonen en sikkerhetsbevisst bruker ville ha valgt for å forhindre det.» — Dan Lisichkin, KI-sikkerhetsforsker i Pillar Security

Google ble varslet 6. januar 2026. Patchen kom 28. februar, og selskapet utbetalte bug bounty. Denne konkrete bugen er altså lukket. Lisichkin peker likevel på et strukturelt problem: samme mønster dukker opp i Cursor og andre kodeagenter. Tillitsmodellen bak klassisk sikkerhet forutsetter at et menneske fanger opp mistenkelig atferd, men den forutsetningen holder ikke når autonome agenter følger instruksjoner fra eksternt innhold uten validering.

>_ NØKKELTALL

6. januar: Pillar Security varslet Google

28. februar: Patch og bug bounty utbetalt

53 dager: Tid fra disclosure til fiks

Hva bør du gjøre?

Audit egne agent-oppsett for native tools. Hvert verktøy som kan nå shell, filsystem eller nettverk utenfor sandkassen er en potensiell injection-vei.
Behandle all tekst agenten leser som utrustet input. README-filer, websider, scraped innhold og ticket-beskrivelser kan alle bære prompt-injeksjoner.
Ikke stol på sandkasse-merking alene. Verifiser i koden hvilke verktøy som faktisk passerer sikkerhetssjekken, og hvilke som går utenom.
Begrens agentens tilgang per oppgave. Gi den minste mulige rolle og ressurser, og rydd opp miljøet etter hver økt.