Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
Gizmochina · 9.5., 04:35 · modell

Xiaomi åpner OmniVoice: TTS-modell med stemmekloning på flere hundre språk og enklere arkitektur

SYNOPSIS_GENERERT

Xiaomi åpnet 8. mai OmniVoice, en TTS-modell som rapporterer forståelighet nær eller bedre enn ekte tale på 102 språk og slår kommersielle systemer på 24.

102 språk med forståelighet nær eller bedre enn ekte tale. 24 språk der OmniVoice slår kommersielle TTS-systemer på likhet og forståelighet. Under ti timer treningsmateriale per språk i halen av kurven. Det er tallene Xiaomis AI Lab oppga da Kaldi-teamet 8. mai åpnet kildekoden for OmniVoice via Xiaomis offisielle WeChat-konto, ifølge Gizmochina.

Open-vekt-utgivelser av flerspråklig TTS er fortsatt sjeldne. ElevenLabs, OpenAIs voice-modeller og lignende kommersielle alternativer kjører lukkede vekter. Tidligere åpne kandidater som Coqui XTTS dekker færre språk og krever lengre treningsdata per språk. OmniVoice plasserer seg som direkte konkurrent til lukkede tjenester for selvhostede stemme-pipelines.

For norske utviklere som vil bygge norske stemme-agenter på lokal hardware åpner dette en mulig vei rundt API-kall til OpenAI eller ElevenLabs. Modellen bruker en enklere arkitektur enn de største kommersielle alternativene, ifølge Xiaomi, og benchmark-tallene ble oppnådd med trening på åpne datasett alene. Stemmekloning-egenskapen betyr også at noen kan reprodusere stemmen din med få sekunder lyd, og det er både kraft og risiko.

>_ NØKKELTALL
102 språk
forståelighet nær eller over ekte tale
24 språk
slår kommersielle TTS-systemer på likhet
under 10 timer: treningsdata per språk i haleenden

Hva bør du gjøre?

  1. Test norsk syntese først. Norsk er et lavressursspråk i mange TTS-modeller. Verifiser at OmniVoice gir naturlig prosodi før du bygger en pipeline rundt den.
  2. Sett opp samtykke-flyt for stemmekloning. Korte lydsnutter er nok til å klone en stemme. Hvis brukerne dine sender lyd, må du dokumentere bruksgrunnlag og lagring.
  3. Sammenlign latens med ElevenLabs eller OpenAI Voice. Lokal kjøring sparer kostnad, men den enklere arkitekturen kan komme på bekostning av strømmingsegenskapene som kommersielle tjenester har optimalisert i månedsvis.

Bakgrunn

Kaldi-teamet er en gjenkjennelig adresse for talegjenkjenning siden Daniel Poveys åpne Kaldi-toolkit fra 2009. At samme miljø nå publiserer TTS i tillegg til ASR styrker tesen om at Xiaomi seriøst bygger ut sin egen tale-stack.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN