Interfaze åpner diffusjonsbasert talegjenkjenning for seks språk

Nesten all talegjenkjenning i dag er autoregressiv: modellen skriver transkripsjonen ett token om gangen. YC-startupen Interfaze går en annen vei. Selskapet har open-sourcet diffusion-gemma-asr-small, som det omtaler som den første flerspråklige diffusjons-ASR-modellen, ifølge MarkTechPost. En diffusjonsdekoder skriver hele transkripsjonen parallelt og forfiner den over noen få steg.

Grepet bak den lave kostnaden: adapteren er bare rundt 42 millioner parametere, cirka 0,16 prosent av vekten, lagt oppå en frossen 26-milliarder-parameters DiffusionGemma-bunn og en frossen whisper-small-enkoder. Kostnaden styres av antall denoising-steg, ikke av hvor lang lyden er. Et ti sekunders klipp konvergerer på rundt åtte parallelle pass, cirka 0,7 til 1,5 sekund modelltid.

På kvalitet er bildet delt. Modellen leder feltet blant diffusjonsbaserte ASR-modeller med 6,6 prosent WER på LibriSpeech test-clean, mot Whisfusions 8,3 prosent. Men den ligger fortsatt bak den autoregressive Whisper, som treffer rundt 3,4 prosent med whisper-small og 2,0 prosent med large-v3. Interfaze mener gapet skyldes treningsdata, ikke arkitektur.

Adapteren er Apache 2.0-lisensiert; DiffusionGemma og whisper-small lastes separat under egne vilkår. Den dekker engelsk, tysk, fransk, spansk, hindi og mandarin fra én adapter, så du slipper å laste én modell per språk.

Hva bør du gjøre?

Installer avhengighetene: pip install torch peft soundfile librosa huggingface_hub "transformers @ git+https://github.com/huggingface/transformers.git".
Hent adapteren fra Hugging Face Hub; den ferdige inference.py kjører transkripsjon rett ut av boksen.
Justerer du kvalitet mot fart: 16 steg gir 15,6 prosent WER på FLEURS engelsk ved 10x sanntid, og flere steg gir knapt bedre resultat.