IBM Granite Speech 4.1: åpne 2B-modeller for ASR og oversettelse på Apache 2.0

To sekunder mot tjuefem: standardmodellen Granite Speech 4.1 2B er autoregressive og dekker ASR pluss bidirectional speech translation på engelsk, fransk, tysk, spansk, portugisisk og japansk, mens 2B-NAR-varianten editerer en CTC-hypotese i én pass og lander på RTFx ~1820 på én H100 ved batch 128. Det betyr at en times lyd transkriberes på under to sekunder. Standardmodellen scorer mean WER 5,33 på Open ASR Leaderboard og 1,33 på LibriSpeech clean, ifølge techy101.coms gjennomgang 30. april.

Begge modellene har samme tre-komponent-arkitektur: en 16-lags Conformer-encoder trent med dual-head CTC, en window Q-Former-modaliteadapter som komprimerer audio til en 10 Hz embedding-rate, og granite-4.0-1b-base som språkmodell. NAR-varianten dropper japansk, AST og keyword biasing til fordel for hastighet, og krever flash_attention_2 for inferens fordi backenden støtter sequence packing og is_causal=False.

IBM har også sluppet en tredje variant, 2B-Plus, med taler-attribusjon og ord-tidsstempler for situasjoner der det er kritisk å vite hvem som sa hva og når. Standardmodellen ble trent i 30 dager på 8 H100-er, mens NAR-modellen kom seg gjennom på 3 dager på 16 H100-er fordelt på to noder. Det reflekterer hvor mye lettere det er å trene en bidireksjonal editor enn en full autoregressive talegenerator.

Hva bør du gjøre?

Velg standardmodellen når du trenger oversettelse, japansk transkripsjon eller keyword biasing. Dette er det fulle språkutvalget.
Velg NAR for høy-volum batch-transkripsjon med strenge latenskrav. RTFx 1820 betyr at én time lyd er ferdig på rundt to sekunder ved batch 128.
Velg 2B-Plus om du trenger taler-attribusjon eller ord-tidsstempler, for eksempel til undertekster og møtereferater.