Repoet localai-org/vibevoice.cpp er MIT-lisensiert og publiserer ferdig kvantiserte GGUF-er på Hugging Face under mudler/vibevoice.cpp-models. To kommandoer skiller deg fra en fungerende lokal stack: clone repoet med --recursive (ggml ligger som submodul), bygg med cmake, og kjør vibevoice-cli tts eller vibevoice-cli asr. Inferens-motoren støtter både realtime-modellen på 0.5B og den større 1.5B-varianten med voice cloning fra en 5-sekunders WAV-referanse.
Det interessante er kvantiseringsdetaljene som teamet har testet eksplisitt. Q8_0 over hele bordet kutter 1.5B-modellen fra 11 GB til 6.8 GB uten målbar tap i closed-loop-testen. En blandet profil med Q6_K på FFN, Q5_K på attention og Q8_0 på lm_head lander på 6.5 GB. Plain Q5_K over hele modellen kollapser den derimot. Recall faller til 22 % fordi FFN-vektene er det mest kvantiserings-sensitive laget.
«FFN weights are the most quant-sensitive piece, attention tolerates Q5_K well.» — README, vibevoice.cpp
Det er den typen empirisk kvantiseringskunnskap som tar timer å skaffe selv, og som er gull verdt for andre som porter modeller til ggml.
For utviklere som bygger lokale taleassistenter, transkripsjonstjenester eller diariserings-verktøy fjerner denne porten et stort avhengighetstre. Tidligere måtte du dra med PyTorch, Transformers og en CUDA-stack for å kjøre VibeVoice. Nå er det ett C++-binærprogram og en GGUF-fil. Repoet ble pushet 5. mai og passerte 60 stjerner i løpet av første uke.
Hva bør du gjøre?
- Test først med 0.5B-realtime-modellen og ferdig-kvantiserte voice gguf-er fra
mudler/vibevoice.cpp-models. Du får hele pipelinen kjørende uten å konvertere noe selv. - Hvis du trenger voice cloning, gå rett på 1.5B-modellen og bruk Q8_0-quanten. Bytt bare ned til mixed-profilen hvis du må presse minne.
- Sammenlign closed-loop-testen mot din egen audio. Det er en TTS → ASR-runde der du sjekker om det syntetiserte uttrykket lar seg transkribere tilbake. Den kjører som ctest i
tests/test_closed_loop.cpp.