Hugging Face og Cerebras kjører Gemma 4 31B for sanntids stemme-KI

Over 9 000 Reachy Mini-roboter kjører allerede denne pipelinen, ifølge Hugging Faces egen blogg. Oppsettet er en fullstendig speech-to-speech-loop: tale inn med Nvidia Parakeet for talegjenkjenning, Gemma 4 31B (Google DeepMind) for språkmodellen kjørt på Cerebras, og Alibabas Qwen3TTS for tale ut.

Poenget er ikke medianlatensen, men den lange halen. Hugging Face peker på at mange produksjonssystemer leverer akseptabel median responstid, men fortsatt får flere sekunders forsinkelse på P95. Det blir verre når verktøykall eller multimodale steg krever flere runder. Cerebras' jobb i stacken er å kappe språkmodellens responstid slik at samtalen holder seg jevn også i verste fall.

For deg som bygger stemmeassistenter eller embodied KI betyr modulariteten at hvert lag kan inspiseres, endres og erstattes. Vil du bytte ut TTS-en eller kjøre en annen VLM, rører du bare det ene leddet i loopen. Koden ligger åpent i repoet huggingface/speech-to-speech, og det finnes en Hugging Face Space med WebSocket-basert stemmechat du kan teste direkte.

Hva bør du gjøre?

Test demoen i Hugging Face Space-en for å kjenne på latensen i din egen nettleser over WebSocket.
Klon repoet huggingface/speech-to-speech og bytt ut ett ledd av gangen (STT, VLM eller TTS) for å tilpasse stacken til ditt prosjekt.
Vil du kjøre Gemma 4 31B raskt nok for sanntid, må inferensleddet ligge på noe som Cerebras. Mål P95, ikke bare medianen, når du sammenligner mot lokal GPU.