Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
InfoQ · 8.5., 00:16 · analyse

OpenAI bytter Responses API til WebSocket: 40 prosent kortere agent-latens i Vercel, Cline og Cursor

SYNOPSIS_GENERERT

OpenAI har lagt WebSocket-modus til Responses API og kuttet HTTP-rundturer mellom verktøy-kall. Vercel, Cline og Cursor melder 30-40 prosent kortere agent-latens i tidlig produksjonsbruk.

Tidligere måtte hver verktøy-kall, hvert mellomresonnement og hver oppfølgingsforespørsel i en agent-arbeidsflyt gå over en ny HTTP-forbindelse mellom klient og OpenAI. Det fungerte da modellene var trege. Når inferens ble raskere, ble nettverkets rundturstid en av de største kildene til total ventetid. WebSocket-modus erstatter dette med én langlevd, toveis forbindelse som strømmer alt på samme kanal, ifølge OpenAIs blogginnlegg gjengitt av InfoQ.

Tallene fra tidlig produksjon ligger rundt 1 000 transaksjoner i sekundet vedvarende, med burst opp mot 4 000 TPS. Selskapet selv rapporterer opptil 40 prosent latensreduksjon. Vercel målte tilsvarende 40 prosent etter å ha integrert WebSocket-modus i AI SDK. Cline meldte om 39 prosent på flerfilsoperasjoner, og Cursor rapporterte gevinster på opptil 30 prosent.

>_ NØKKELTALL
40 %: OpenAI og Vercel
39 %: Cline på flerfilsoperasjoner
30 %: Cursor

«WebSockets for agent state is such an obvious but huge win. No more cold starts killing your multi-tool chains.» — Ofek Shaked, vibe-coder

Effekten er størst i lange agentkjeder fordi kostnaden ved å åpne TLS-tilkobling og forhandle headers betales bare én gang per økt, ikke per verktøy-kall. Gabriel Chua, DX-ingeniør hos OpenAI, anbefaler å varme opp kanalen ved å sende systemprompt og verktøydefinisjoner først, slik at modellen er klar når første brukerinput kommer. Modusen er Zero Data Retention-kompatibel, så virksomheter med strenge datakrav kan bruke den uten å lagre logger på OpenAIs side.

Skiftet er ikke en modellforbedring. Det er en transportlag-endring som anerkjenner at agentdesign krever stateful kommunikasjon, ikke en serie isolerte forespørsler. Kevin Cho hos Microsoft kommenterte at det «handler om å gå tilbake til klassiske software-stack-problemer: websockets og stateful connections». For utviklere som har bygget agenter på toppen av rene HTTP-mønstre, betyr det også nye driftsutfordringer: håndtering av forbindelseslivssyklus, backpressure under høy samtidighet, og pålitelighet i distribuerte systemer.

Codex har migrert mesteparten av Responses API-trafikken sin til WebSocket-modus etter en to-måneders alfa-periode med utvalgte partnere. Det indikerer at modusen er produksjonsklar, men tidlig nok i livsløpet til at debug-mønstre og biblioteks-støtte fortsatt formes.

Hva bør du gjøre?

  1. Mål din egen latens-fordeling først. Hvis modellinferensen dominerer, gir WebSocket marginal gevinst. Hvis nettverket er hovedflaskehalsen (mange små verktøy-kall), kan 30-40 prosent være realistisk.
  2. Varm opp forbindelsen. Send systemprompt og verktøydefinisjoner før du åpner for brukerinput. Det fjerner kaldstart-kostnaden i første runde.
  3. Bygg om logging og retry-logikk. Stateful forbindelser krever annen feilhåndtering enn HTTP. Planlegg for reconnect-strategi, idempotente verktøy-kall og hvordan du sporer hendelser uten request-ID per kall.
  4. Test SDK-støtten. Vercel AI SDK har WebSocket-modus innebygd. Cline og Cursor har integrert det. Sjekk om ditt eget rammeverk har et oppdatert klientbibliotek før du skriver wrapping selv.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN