Cube Sandbox open source: Tencent slipper KVM-sandkasse med 60 ms kaldstart for KI-agenter

«Anthropic kunngjorde nylig sin Managed Agent-arkitektur, som dekomponerer agenter i tre kjernekomponenter: sesjon, kjøreramme og sandkasse.» — Jerry Lin, TencentCloud

Tencent Cloud publiserte 30. april kildekoden til Cube Sandbox på GitHub etter å ha kjørt verktøyet internt for tjenester som Tencent Yuanbao. Prosjektet løser et kjent dilemma for agentbyggere: containere starter raskt, men deler kjerne med verten og er sårbare for utbrudd. Tradisjonelle VM-er har hardware-isolasjon, men kaldstart i sekunder gjør dem ubrukelige når en agent skal spinne opp og rive ned hundrevis av sandkasser i minuttet.

Cube bygger på RustVMM og KVM, og kapper bort alt Firecracker drar med seg av generell-purpose-balast. Et tilpasset Linux-Guest-kjerne, en minimal device-modell (kun virtio-net, virtio-blk og serial), og bruker-space interrupt-håndtering kutter oppstartsstien til under 60 ms. For å nå dette tallet preallokeres «blanke» VM-er i et resource pool, og nye instanser klones via Copy-on-Write-snapshots. Det er derfor minneforbruket holdes under 5 MB per sandkasse.

For norske bygger-team som har eksperimentert med E2B Cloud, ligger den praktiske vinklingen i kompatibiliteten. Cube implementerer E2B-protokollen native, så Python-SDK-en e2b-code-interpreter fungerer ved å bytte miljøvariabel. Det gir en self-hostable vei ut av leverandørbinding for kodeutførelse i agenter, slik at du kan kjøre hele stacken på egen Linux-server med KVM-støtte og slippe å sende koden gjennom et tredjepartsendepunkt.

Noen forbehold er det også. Tencent rapporterer 2000+ samtidige sandkasser per maskin og P95 på 137 ms ved 50 parallelle opprettelser, men disse tallene kommer fra deres egen testing. Du må selv verifisere mot din workload. Prosjektet er nylig åpnet, så modenhet utenfor Tencents interne miljø er ennå uprøvd. Anbefalt distro er OpenCloudOS 9, og dokumentasjonen er tospråklig (engelsk og kinesisk).

Hva bør du gjøre?

Test mot eksisterende E2B-oppsett. Hvis du allerede bruker e2b-code-interpreter i Python, bytt E2B_API_URL til en Cube-instans og kjør testene dine. Du finner ut raskt om kompatibiliteten holder.
Vurder for RL-trening. Cube er bygget for scenarioer der hver episode trenger sin egen rene sandkasse. Hvis du trener agenter med kodekjøring som tool-call, sjekk om kaldstart-budsjettet ditt blir et flaskehals-problem.
Audit nettverkspolicy. eBPF-basert utgangsfiltrering er en av Cubes sterkeste sider, men default er ingen utgående trafikk. Konfigurer whitelisten per use case før produksjon, ellers vil agenten din feile når den prøver å nå pip-mirroret midt i en kjøring.