Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
MarkTechPost · 15.5., 12:21 · verktøy

Supertonic 3: 31 språk, 99M parametre og 404 MB ONNX som kjører på e-blekk

SYNOPSIS_GENERERT

Supertone har sluppet Supertonic 3, en ONNX-basert TTS-motor som kjører lokalt med 31 språk og kun 99 millioner parametre. v3 utvider språkstøtten fra 5 til 31 og legger til uttrykkstagger som <laugh> og <breath>.

Supertone slapp 15. mai Supertonic 3, tredje generasjon av sin ONNX-baserte tekst-til-tale-motor. Modellen vokser fra 66 til 99 millioner parametre og utvider språkstøtten fra 5 (engelsk, koreansk, spansk, portugisisk, fransk) til 31 ISO-koder. Hele pakken med offentlige ONNX-vekter veier 404 MB.

Det praktiske poenget er kjøremiljøet. Supertonic 3 kjører på CPU raskere enn mange større modeller gjør på A100 GPU, og fungerer i nettleser via onnxruntime-web, i Flutter, .NET 9 og Go. Marktechpost dokumenterer en RTF på 0,3x på en Onyx Boox Go 6 i flymodus, altså en e-blekk-leser uten nett. Det er edge-deployment i ordets bokstavelige forstand.

v3 introduserer uttrykkstagger som , og rett i tekstinput, uten separat preprosessering. Den håndterer også finansielle uttrykk («$5.2M» → «five point two million dollars»), telefonnumre med extensions og tekniske enheter («30kph») uten egen normaliseringspipeline. Marktechpost noterer at ElevenLabs Flash v2.5, OpenAI TTS-1, Gemini 2.5 Flash TTS og Microsoft feilet på finansielle uttrykk og tekniske enheter i samme test.

v2-kompatibilitet betyr at eksisterende integrasjoner kan oppgraderes uten å endre inferens-kode. ONNX-vektene ligger åpent på Hugging Face. Det 167x raskere-enn-sanntid-tallet som ble brukt i v2-markedsføringen er imidlertid ikke gjentatt for v3, så ikke anta identisk gjennomstrømning.

Hva bør du gjøre?

  1. Test selv: pip install supertonic og last ned modellene automatisk på første kjøring. SDK-en støtter tts.synthesize(text, voice_style=style, lang="no") for norsk er ikke i listen, men ISO-koder for skandinaviske språk som svensk og dansk er.
  2. Sammenlign med Piper og Coqui XTTS hvis du allerede selvhoster TTS. Supertonic 3 er mindre på disk og krever ingen GPU; nytteverdien avhenger av om språket ditt er dekket.
  3. Vurder lisens før produksjon. ONNX-vektene er offentlig tilgjengelige, men sjekk Supertone-lisensen for kommersiell bruk.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN