Cloudflare har sluppet en ny stemme-pipeline for sitt Agents SDK. Pakken @cloudflare/voice lar deg legge til sanntids tale-input og tale-output på en eksisterende agent — uten å flytte den til et eget stemmerammeverk. Alt kjører over samme WebSocket-tilkobling og Durable Object som agenten allerede bruker.
Pakken tilbyr to hovedmønstre: withVoice(Agent) for fullstendige samtaleagenter med tale begge veier, og withVoiceInput(Agent) for ren tale-til-tekst (diktering, talesøk). React-apper får useVoiceAgent og useVoiceInput hooks, mens rammeverk-agnostiske apper bruker VoiceClient.
«Audio transport, STT, LLM og TTS kjører i en tett pipeline på Cloudflares nettverk via Workers AI bindings — uten hopp mellom eksterne tjenester» — Cloudflare
Serverdelen er kompakt. Du definerer en transcriber (Workers AI Flux STT), en tts-provider (Workers AI TTS) og implementerer onTurn(). Klienten kobler til med useVoiceAgent({ agent: "my-agent" }). Samtalehistorikken lagres i SQLite og overlever reconnects og deploys.
Hva bør du gjøre?
- Prøv
@cloudflare/voicei et eksisterende Agents SDK-prosjekt — du trenger bare å wrappe agent-klassen medwithVoice()og implementereonTurn() - Start med
WorkersAIFluxSTTogWorkersAITTSfor å unngå eksterne avhengigheter — bytt til tredjeparts-providere senere ved behov - Test latens i din region — Cloudflare lover tettere pipeline enn tradisjonelle oppsett, men opplevd latens varierer med avstanden til nærmeste Cloudflare-node