Mozilla.ai slipper transcribe.cpp: llama.cpp for lokal tale-til-tekst

Tre GPU-backender (Metal, Vulkan og CUDA) er kjernen i transcribe.cpp, biblioteket Mozilla.ai annonserte denne uken gjennom sitt «Builders in Residence»-program. Det er bygget av CJ Pais og posisjoneres eksplisitt som «llama.cpp for STT-modeller»: det bruker samme ggml-runtime og laster modeller i GGUF-format. Der llama.cpp ga deg lokale språkmodeller, gir transcribe.cpp deg lokal transkripsjon med samme akselerasjonsstrategi.

Problemet biblioteket løser er fragmentering. Gode STT-modeller utvikles i isolasjon, og resultatet er to gjentakende svakheter: dårlig portabilitet (MLX-modeller kjører for eksempel bare på Mac) og treg ytelse fordi akselerasjon sjelden virker overalt rett ut av boksen. transcribe.cpp legger ett uniformt grensesnitt over modellfamiliene, så samme kode kjører akselerert på tvers av maskinvare.

For deg som bygger er hovedpoenget at lyden aldri forlater maskinen. Ingen API-nøkkel, ingen sky-regning per minutt, ingen tredjepart som ser opptakene. Pais har allerede brukt teknologien i desktop-appen Handy (omtalt i WIRED tidligere i år) og i whisperfile-prosjektet. Biblioteket er fundamentet for «transcribefiles»: selvstendige, flerplattform-kjørbare filer som transkriberer lyd nesten hvor som helst.

«Tenk på det som llama.cpp for STT-modeller.» — Mozilla.ai, lanseringsbloggen

Hva bør du gjøre?

Skal du bygge transkripsjon inn i en app: klon GitHub-repoet til transcribe.cpp og bygg mot ggml-runtimen. Forutsetning er en GPU med Metal-, Vulkan- eller CUDA-støtte for å få akselerasjonen, men det kjører også på CPU.
Vil du bare teste uten å skrive kode: bruk Handy-appen fra samme utvikler, eller bygg en llamafile som bundler modell og konfigurasjon til én selvstendig kjørbar fil.
Bruker du allerede whisper.cpp: vurder transcribe.cpp for å få ett grensesnitt mot flere modellfamilier i stedet for å bytte runtime per modell.