Cloudflare lanserer tale-API for KI-agenter — bygg stemmebaserte assistenter på Workers

Cloudflare har sluppet en ny stemme-pipeline for sitt Agents SDK. Pakken @cloudflare/voice lar deg legge til sanntids tale-input og tale-output på en eksisterende agent — uten å flytte den til et eget stemmerammeverk. Alt kjører over samme WebSocket-tilkobling og Durable Object som agenten allerede bruker.

Pakken tilbyr to hovedmønstre: withVoice(Agent) for fullstendige samtaleagenter med tale begge veier, og withVoiceInput(Agent) for ren tale-til-tekst (diktering, talesøk). React-apper får useVoiceAgent og useVoiceInput hooks, mens rammeverk-agnostiske apper bruker VoiceClient.

«Audio transport, STT, LLM og TTS kjører i en tett pipeline på Cloudflares nettverk via Workers AI bindings — uten hopp mellom eksterne tjenester» — Cloudflare

Serverdelen er kompakt. Du definerer en transcriber (Workers AI Flux STT), en tts-provider (Workers AI TTS) og implementerer onTurn(). Klienten kobler til med useVoiceAgent({ agent: "my-agent" }). Samtalehistorikken lagres i SQLite og overlever reconnects og deploys.

>_ NØKKELTALL

16 kHz

mono PCM-lydstrøm over WebSocket

eksterne API-nøkler nødvendig for å komme i gang (Workers AI inkludert)

Durable Object per agent, delt mellom tekst og tale

Hva bør du gjøre?

Prøv @cloudflare/voice i et eksisterende Agents SDK-prosjekt — du trenger bare å wrappe agent-klassen med withVoice() og implementere onTurn()
Start med WorkersAIFluxSTT og WorkersAITTS for å unngå eksterne avhengigheter — bytt til tredjeparts-providere senere ved behov
Test latens i din region — Cloudflare lover tettere pipeline enn tradisjonelle oppsett, men opplevd latens varierer med avstanden til nærmeste Cloudflare-node