OpenAI Agents SDK får sandbox-eksekvering, godkjennings-gates og trace-grading for langtids-agenter

OpenAI har oppdatert Agents SDK med tre nye primitiver rettet mot agenter som skal kjøre i bedrifter eller mot sensitive systemer, ifølge en gjennomgang publisert av Intelligent Living 27. april. Endringene flytter tre vanlige agent-bekymringer fra «du må bygge dette selv» til offisielle byggeklosser: sandbox-eksekvering for å isolere fil- og kommando-bruk, approval-gates for å pause før side-effekter, og strukturert trace-grading for å score hele agent-runs over tid.

Sandbox-eksekvering er den mest interessante endringen for utviklere som har slitt med Cursor-stilen «agenten slettet prod-databasen»-scenarier. Sandbox-sesjoner kan pause og fortsette, slik at en agent kan kjøre filendringer eller shell-kommandoer i et lukket miljø, vente på menneskelig review, og fortsette uten å miste state. Det skjermer resten av systemet fra både feil og prompt-injeksjon-eskalering. Approval-gates skiller harmløs resonnering fra steg som faktisk endrer ting (skrive til database, sende melding, merge PR), så en agent kan bygge en plan fritt, men må be om grønt lys før den iverksetter.

Trace-grading er den minst snakkede, mest praktiske delen. SDK-en kan nå score en hel end-to-end-agent-kjøring som strukturert data, ikke bare som logger. Det betyr at du kan sette opp regresjonstester på agentens beslutninger over tid: kjørte den de samme tools i samme rekkefølge? Holdt den seg innenfor permission-scope? For team som driver sin egen agent i prod, er det forskjellen mellom «agenten føles stabil» og «vi kan dokumentere stabilitet».

For bygg-orienterte lesere er det også verdt å notere at SDK-en støtter vilkårlige LLM-leverandører, ikke bare OpenAIs egne modeller. Det betyr at du kan bytte mellom GPT, Claude og lokale modeller uten å bytte rammeverk.

Hva bør du gjøre?

Migrer godkjennings-logikk fra egen kode til SDK-ens approval-gates hvis du allerede har en agent i prod. Det reduserer overflaten for «agenten gjorde noe vi ikke ba om».
Sett opp sandbox-isolering for alle agenter med fil- eller shell-tilgang. Standardregelen bør være at agenter aldri rører hostens filsystem direkte før du har en konkret grunn til å åpne for det.
Aktiver tracing fra dag én, selv på prototyper. Det er mye enklere å bygge regresjonstester når du har strukturerte traces fra start enn å retrofitte logging når noe har gått galt.