MOSS-Audio: open source-modellen 8B slår 30B-konkurrenter på timestamp-ASR

OpenMOSS-teamet, MOSI.AI og Shanghai Innovation Institute publiserte 27. april MOSS-Audio, en open source-foundation-modell som samler talegjenkjenning, identifisering av talere, emosjons-analyse, miljølyd-gjenkjenning, musikkforståelse og tids-forankret QA i én modell. Det er presset av kombinerte oppgaver som tidligere krevde at du kjedet sammen tre eller fire spesialiserte systemer, ifølge en gjennomgang publisert av MarkTechPost.

Resultatene er den interessante delen for utviklere som vurderer hvilken modell som faktisk holder. På fire generelle audio-benchmarks (MMAU, MMAU-Pro, MMAR, MMSU) scorer MOSS-Audio-8B-Thinking i snitt 71,08, foran Step-Audio-R1 som har 33 milliarder parametere (70,67) og Qwen3-Omni-30B-A3B-Instruct (67,91). Den lille 4B Thinking-varianten lander på 68,37 og slår dermed alle større open source-konkurrenter i instruct-only-kategorien. På timestamp-forankret ASR (AAS) er forspranget enda tydeligere: 8B-Instruct scorer 35,77 på AISHELL-1, mens Qwen3-Omni på 30B kommer på 833,66 og lukkede Gemini-3.1-Pro på 708,24. Lavere er bedre.

«Vi trente encoderen fra grunnen av i stedet for å bruke ferdige audio-frontends. Begrunnelsen er at en dedikert encoder gir mer robuste tale-representasjoner, tettere temporal alignment og bedre utvidbarhet på tvers av akustiske domener.» — MOSS-Audio team, prosjekt-dokumentasjonen

To arkitektur-valg gjør forskjellen. DeepStack Cross-Layer Feature Injection projiserer features fra mellom-lagene til encoderen direkte inn i tidlige LLM-lag, slik at lavnivå-akustiske detaljer (prosodi, transienter, klangfarge) ikke forsvinner når informasjonen passerer gjennom topp-laget. Time-Aware Representation flyter eksplisitte tids-tokens mellom audio-frame-representasjoner under pretraining, så modellen lærer «hva skjedde når» uten en separat lokaliserings-head eller post-prosessering. Praktisk konsekvens: du kan stille spørsmålet «hva sa taleren ved 2-minuttersmerket?» uten å bygge en egen tidsstempel-pipeline.

Fire varianter ble sluppet samtidig: 4B-Instruct, 4B-Thinking, 8B-Instruct og 8B-Thinking. Instruct-modellene gir forutsigbare, strukturerte utdata for produksjons-pipelines. Thinking-variantene har sterkere chain-of-thought-resonering for multi-hop-spørsmål. Backbone er Qwen3-4B og Qwen3-8B, så total modellstørrelse blir omtrent 4,6B og 8,6B parametere.

Hva bør du gjøre?

Velg variant etter use case. Skal modellen drive en produksjons-tjeneste med strukturert JSON-utdata, ta Instruct. Skal den svare på sammensatte spørsmål om langform-lyd, ta Thinking. 4B er nok hvis du har et begrenset GPU-budsjett.
Sammenlign mot din eksisterende stack. Hvis du i dag kjører Whisper for ASR, en separat speaker-diarisation-modell og en tredje modell for emosjons-deteksjon, kjør samme datasett mot MOSS-Audio og mål både kvalitet og latency. Konsolidering reduserer ofte både kostnad og koblingsfeil.
Test timestamp-funksjonaliteten på dine egne lange opptak. AAS-tallene på AISHELL-1 og LibriSpeech er imponerende, men din podcast eller dine møteopptak har egne karakteristika (bakgrunnsstøy, kodeskifte, dialekt) som lab-benchmarks ikke fanger.