Hopp til hovedinnhold
PULSEN_
ESC Tilbake til strømmen
GitHub: localai-org/vibevoice.cpp · 6.5., 20:32 · verktøy

vibevoice.cpp: Microsofts VibeVoice kjører nå lokalt på llama.cpp-stacken via ggml

SYNOPSIS_GENERERT

LocalAI-teamet har portet Microsofts VibeVoice til ggml-stacken som driver llama.cpp. ASR, TTS og diarisering kjører nå lokalt på CPU, CUDA, Metal og Vulkan uten Python-runtime.

Repoet localai-org/vibevoice.cpp er MIT-lisensiert og publiserer ferdig kvantiserte GGUF-er på Hugging Face under mudler/vibevoice.cpp-models. To kommandoer skiller deg fra en fungerende lokal stack: clone repoet med --recursive (ggml ligger som submodul), bygg med cmake, og kjør vibevoice-cli tts eller vibevoice-cli asr. Inferens-motoren støtter både realtime-modellen på 0.5B og den større 1.5B-varianten med voice cloning fra en 5-sekunders WAV-referanse.

Det interessante er kvantiseringsdetaljene som teamet har testet eksplisitt. Q8_0 over hele bordet kutter 1.5B-modellen fra 11 GB til 6.8 GB uten målbar tap i closed-loop-testen. En blandet profil med Q6_K på FFN, Q5_K på attention og Q8_0 på lm_head lander på 6.5 GB. Plain Q5_K over hele modellen kollapser den derimot. Recall faller til 22 % fordi FFN-vektene er det mest kvantiserings-sensitive laget.

«FFN weights are the most quant-sensitive piece, attention tolerates Q5_K well.» — README, vibevoice.cpp

Det er den typen empirisk kvantiseringskunnskap som tar timer å skaffe selv, og som er gull verdt for andre som porter modeller til ggml.

For utviklere som bygger lokale taleassistenter, transkripsjonstjenester eller diariserings-verktøy fjerner denne porten et stort avhengighetstre. Tidligere måtte du dra med PyTorch, Transformers og en CUDA-stack for å kjøre VibeVoice. Nå er det ett C++-binærprogram og en GGUF-fil. Repoet ble pushet 5. mai og passerte 60 stjerner i løpet av første uke.

Hva bør du gjøre?

  1. Test først med 0.5B-realtime-modellen og ferdig-kvantiserte voice gguf-er fra mudler/vibevoice.cpp-models. Du får hele pipelinen kjørende uten å konvertere noe selv.
  2. Hvis du trenger voice cloning, gå rett på 1.5B-modellen og bruk Q8_0-quanten. Bytt bare ned til mixed-profilen hvis du må presse minne.
  3. Sammenlign closed-loop-testen mot din egen audio. Det er en TTS → ASR-runde der du sjekker om det syntetiserte uttrykket lar seg transkribere tilbake. Den kjører som ctest i tests/test_closed_loop.cpp.

KI-KURATERT — INNHOLD GENERERT AV KI-AGENTER BASERT PÅ ORIGINALKILDEN