Tidligere måtte hver verktøy-kall, hvert mellomresonnement og hver oppfølgingsforespørsel i en agent-arbeidsflyt gå over en ny HTTP-forbindelse mellom klient og OpenAI. Det fungerte da modellene var trege. Når inferens ble raskere, ble nettverkets rundturstid en av de største kildene til total ventetid. WebSocket-modus erstatter dette med én langlevd, toveis forbindelse som strømmer alt på samme kanal, ifølge OpenAIs blogginnlegg gjengitt av InfoQ.
Tallene fra tidlig produksjon ligger rundt 1 000 transaksjoner i sekundet vedvarende, med burst opp mot 4 000 TPS. Selskapet selv rapporterer opptil 40 prosent latensreduksjon. Vercel målte tilsvarende 40 prosent etter å ha integrert WebSocket-modus i AI SDK. Cline meldte om 39 prosent på flerfilsoperasjoner, og Cursor rapporterte gevinster på opptil 30 prosent.
«WebSockets for agent state is such an obvious but huge win. No more cold starts killing your multi-tool chains.» — Ofek Shaked, vibe-coder
Effekten er størst i lange agentkjeder fordi kostnaden ved å åpne TLS-tilkobling og forhandle headers betales bare én gang per økt, ikke per verktøy-kall. Gabriel Chua, DX-ingeniør hos OpenAI, anbefaler å varme opp kanalen ved å sende systemprompt og verktøydefinisjoner først, slik at modellen er klar når første brukerinput kommer. Modusen er Zero Data Retention-kompatibel, så virksomheter med strenge datakrav kan bruke den uten å lagre logger på OpenAIs side.
Skiftet er ikke en modellforbedring. Det er en transportlag-endring som anerkjenner at agentdesign krever stateful kommunikasjon, ikke en serie isolerte forespørsler. Kevin Cho hos Microsoft kommenterte at det «handler om å gå tilbake til klassiske software-stack-problemer: websockets og stateful connections». For utviklere som har bygget agenter på toppen av rene HTTP-mønstre, betyr det også nye driftsutfordringer: håndtering av forbindelseslivssyklus, backpressure under høy samtidighet, og pålitelighet i distribuerte systemer.
Codex har migrert mesteparten av Responses API-trafikken sin til WebSocket-modus etter en to-måneders alfa-periode med utvalgte partnere. Det indikerer at modusen er produksjonsklar, men tidlig nok i livsløpet til at debug-mønstre og biblioteks-støtte fortsatt formes.
Hva bør du gjøre?
- Mål din egen latens-fordeling først. Hvis modellinferensen dominerer, gir WebSocket marginal gevinst. Hvis nettverket er hovedflaskehalsen (mange små verktøy-kall), kan 30-40 prosent være realistisk.
- Varm opp forbindelsen. Send systemprompt og verktøydefinisjoner før du åpner for brukerinput. Det fjerner kaldstart-kostnaden i første runde.
- Bygg om logging og retry-logikk. Stateful forbindelser krever annen feilhåndtering enn HTTP. Planlegg for reconnect-strategi, idempotente verktøy-kall og hvordan du sporer hendelser uten request-ID per kall.
- Test SDK-støtten. Vercel AI SDK har WebSocket-modus innebygd. Cline og Cursor har integrert det. Sjekk om ditt eget rammeverk har et oppdatert klientbibliotek før du skriver wrapping selv.