Intinya
VibeVoice adalah keluarga AI suara open source dari Microsoft yang terdiri dari tiga model: VibeVoice-1.5B (teks-ke-suara hingga 90 menit, 4 pembicara), VibeVoice-Realtime-0.5B (TTS streaming latensi rendah), dan VibeVoice-ASR (pengenalan suara hingga 60 menit audio, 50+ bahasa, WER 7,77%). Semua model berlisensi MIT dan dapat dijalankan lokal. Panduan ini fokus pada instalasi, penggunaan, dan integrasi API secara praktis.
Pendahuluan
Microsoft merilis VibeVoice sebagai kerangka kerja AI suara open source di awal 2026. VibeVoice menyediakan model untuk sintesis suara (teks-ke-suara) dan pengenalan suara (ASR), semuanya berjalan lokal tanpa perlu layanan cloud eksternal.
Tiga model utamanya:
- VibeVoice-1.5B: Sintesis ucapan multi-pembicara ekspresif dari teks, dukung hingga 90 menit dan 4 pembicara dalam sekali jalan.
- VibeVoice-Realtime-0.5B: TTS streaming ringan dengan latensi awal ~300ms.
- VibeVoice-ASR: Transkripsi hingga 60 menit audio, deteksi pembicara, timestamp, dan output terstruktur untuk 50+ bahasa.
Model TTS sempat kontroversial karena penyalahgunaan kloning suara. Microsoft sempat menonaktifkan repo GitHub, lalu mengaktifkan kembali dengan penafian AI yang dapat didengar dan watermark. VibeVoice-ASR tersedia di Azure AI Foundry, model TTS tetap berfokus pada riset dan open source MIT.
Panduan ini berisi langkah-langkah instalasi, pembuatan TTS, ASR, integrasi API, dan cara pengujian endpoint AI suara menggunakan Apidog.
Cara Kerja VibeVoice: Gambaran Arsitektur
Terobosan Tokenizer
Tokenizer VibeVoice beroperasi pada laju bingkai ultra-rendah 7,5 Hz, jauh lebih rendah dari model ucapan lain (umumnya 50-100 Hz). Ini memungkinkan pemrosesan urutan panjang (hingga 90 menit audio) tanpa kehilangan konteks.
Dua tokenizer utama:
- Tokenizer Akustik: Sigma-VAE, ~340M parameter, downsample audio 24kHz hingga 3.200x.
- Tokenizer Semantik: Arsitektur mirip, dilatih untuk menangkap makna linguistik.
Difusi Token Berikutnya
Menggabungkan LLM (Qwen2.5-1.5B) sebagai backbone dengan kepala difusi ringan (~123M parameter) untuk detail audio. LLM menangani konteks dan alur dialog, kepala difusi menghasilkan audio high-fidelity dengan DDPM dan Classifier-Free Guidance.
Total parameter model: 3B.
Pendekatan Pelatihan
Model dilatih secara bertahap pada urutan lebih panjang (4K → 64K token). Tokenizer tetap beku; hanya LLM dan kepala difusi yang diupdate. Ini memungkinkan penanganan audio panjang tanpa melupakan kemampuan audio pendek.
Spesifikasi Model VibeVoice
| Model | Parameter | Tujuan | Panjang Maks | Bahasa | Lisensi |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B | Teks-ke-suara | 90 menit | Inggris, Mandarin | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS Streaming | Bentuk panjang | Inggris, Mandarin | MIT |
| VibeVoice-ASR | ~9B | ASR | 60 menit | 50+ bahasa | MIT |
VibeVoice-1.5B (TTS)
| Spesifikasi | Nilai |
|---|---|
| Basis LLM | Qwen2.5-1.5B |
| Panjang konteks | 64K token |
| Pembicara maksimum | 4 |
| Output audio | 24kHz WAV mono |
| Tipe tensor | BF16 |
| Format | Safetensors |
| Unduhan HF | 62.630/bulan |
| Fork komunitas | 12 varian fine-tune |
VibeVoice-ASR
| Spesifikasi | Nilai |
|---|---|
| Basis arsitektur | Qwen2.5 |
| Parameter | ~9B |
| Pemrosesan audio | Hingga 60 menit |
| Laju bingkai | 7.5 Hz |
| WER rata-rata | 7.77% (8 dataset Inggris) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| Bahasa | 50+ |
| Output | Terstruktur (Siapa/Kapan/Apa) |
| Audio didukung | WAV, FLAC, MP3 (16kHz+) |
Instalasi dan Pengaturan
Prasyarat
- Python 3.8+
- GPU NVIDIA dengan CUDA
- 7-8 GB VRAM (TTS), 24 GB+ VRAM (ASR, A100/H100 disarankan)
- RAM 32 GB+ (64 GB untuk ASR)
- CUDA 11.8+ (12.0+ disarankan)
Instal VibeVoice TTS
# Clone repo
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Install dependensi
pip install -r requirements.txt
Model otomatis diunduh dari HuggingFace saat pertama run, atau bisa manual:
from huggingface_hub import snapshot_download
# Download model TTS 1.5B
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Instal via pip (paket komunitas)
pip install vibevoice
Instal untuk ASR
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Atau gunakan Azure AI Foundry untuk inferensi cloud.
Membuat Ucapan dengan VibeVoice-1.5B
Pembuatan Satu Pembicara
Buat file teks:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
Jalankan inferensi:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
Output: file .wav di folder outputs/.
Pembuatan Podcast Multi-Pembicara
Script hingga 4 pembicara:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Kloning Suara (Zero-Shot)
Audio referensi:
- Format: WAV mono, 24kHz
- Durasi: 30-60 detik ucapan jelas
Konversi audio:
ffmpeg -i source.m4a -ar 24000 -ac 1 reference_voice.wav
Jalankan demo Gradio:
python demo/gradio_demo.py
Akses di http://127.0.0.1:7860, upload audio referensi dan sintesis suara.
Streaming dengan VibeVoice-Realtime-0.5B
Untuk TTS latensi rendah (~300ms):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Model Realtime lebih cepat, kualitas audio sedikit di bawah 1.5B.
Menggunakan VibeVoice dengan Python
API Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Load pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Multi-speaker script
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# Apply chat template
input_data = pipe.processor.apply_chat_template(script)
# Generate audio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Pembungkus FastAPI untuk Produksi
Jalankan API TTS kompatibel OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Contoh request:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
Endpoint ini dapat diuji dengan Apidog menggunakan format request OpenAI.
Menggunakan VibeVoice-ASR untuk Pengenalan Suara
Transkripsi Dasar
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Format Keluaran Terstruktur
Hasil ASR berupa JSON:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR sebagai Server MCP
pip install vibevoice-mcp-server
vibevoice-mcp serve
Integrasi dengan Claude Code, Cursor, dan alat AI coding lainnya untuk transkripsi audio secara otomatis.
Kapan Gunakan VibeVoice-ASR vs Whisper
| Kasus Penggunaan | Pilihan Terbaik | Alasan |
|---|---|---|
| Rapat panjang (30-60 menit) | VibeVoice-ASR | Pemrosesan 60 menit sekali jalan, ID pembicara |
| Wawancara multi-pembicara | VibeVoice-ASR | Diarisasi bawaan |
| Podcast dengan timestamp | VibeVoice-ASR | Output terstruktur Siapa/Kapan/Apa |
| Konten multibahasa (50+ bahasa) | VibeVoice-ASR | Dukungan bahasa luas |
| Klip pendek di lingkungan bising | Whisper | Noise robustness lebih baik |
| Deploy edge/mobile | Whisper | Model lebih kecil, support device lebih luas |
| Bahasa non-Inggris spesifik | Whisper | Fine-tuning multibahasa lebih matang |
Menguji API AI Suara dengan Apidog
Baik menggunakan FastAPI VibeVoice, Azure AI Foundry, maupun custom API, Apidog membantu pengujian endpoint AI suara Anda.
Uji Endpoint TTS
- Buat request POST di Apidog ke server FastAPI VibeVoice.
-
Isi body dengan format OpenAI:
{ "model": "vibevoice-1.5b", "input": "Test speech synthesis with proper intonation and pacing.", "voice": "alice" } Kirim dan verifikasi response header
audio/wav.Simpan response untuk verifikasi kualitas audio.
Uji Endpoint ASR
- Buat request POST
multipart/form-data. - Attach file audio.
- Pastikan response JSON memuat ID pembicara, timestamp, dan teks.
Validasi Kontrak API Audio
- Unggah file biner untuk ASR.
- Format JSON untuk TTS.
- Validasi output terstruktur.
- Gunakan environment variable untuk switching endpoint lokal/cloud.
Unduh Apidog untuk menguji API AI suara Anda sebelum production.
Keamanan dan Penggunaan yang Bertanggung Jawab
Pengamanan utama oleh Microsoft:
- Penafian AI terdengar: Audio selalu mengandung pesan "Segmen ini dihasilkan oleh AI".
- Watermarking: Penanda tersembunyi untuk verifikasi konten.
- Inferensi logging: Hash log untuk deteksi penyalahgunaan.
- MIT License: Bebas komersial, namun tidak disarankan langsung production tanpa pengujian.
Diizinkan
- Riset dan akademik
- Prototyping/internal testing
- Podcast dengan disclosure AI
- Aplikasi aksesibilitas
Tidak Diizinkan
- Peniruan suara tanpa izin tertulis
- Deepfake audio yang menyesatkan
- Voice conversion real-time untuk deepfake live
- Generasi audio non-speech (musik, efek suara)
Batasan yang Perlu Diketahui
Bahasa terbatas TTS: Hanya Inggris & Mandarin. Bahasa lain keluarannya tidak dapat dimengerti. ASR mendukung 50+ bahasa.
Kebutuhan hardware tinggi ASR: VRAM 24GB+ (A100/H100), TTS bisa di GPU 7-8GB.
Tidak handle overlapping speech: Semua dialog berbasis giliran.
Bias model: Output bisa mengandung bias atau konten tidak akurat.
Status riset: Belum siap produksi, bisa error pada edge case atau output non-Inggris.
Menerapkan VibeVoice-ASR di Azure AI Foundry
Untuk tim tanpa GPU, gunakan VibeVoice-ASR via Azure AI Foundry. Dapatkan endpoint HTTPS, upload audio, dapatkan transkripsi terstruktur (Siapa/Kapan/Apa). Deploy Azure menangani scaling, update, dan SLA.
Untuk uji integrasi, atur endpoint dan header authentication di Apidog, lalu tes transkripsi ke file audio sampel Anda.
Komunitas dan Ekosistem
Komunitas VibeVoice aktif:
- 62.630+ unduhan/bulan HuggingFace 1.5B
- 2.280+ likes di HuggingFace
- 79+ HuggingFace Spaces
- 12 varian fine-tune komunitas
- 4 versi kuantisasi untuk VRAM rendah
- Fork aktif di
vibevoice-community/VibeVoice
Proyek komunitas:
- VibeVoice-FastAPI: REST API wrapper dengan Docker support
- VibeVoice MCP Server: Integrasi Model Context Protocol
- Apple Silicon support: Skrip inferensi Mac M-series
- Model kuantisasi: GGUF & format lain untuk VRAM kecil
FAQ
Apakah VibeVoice gratis untuk digunakan?
Ya, semua model (TTS 1.5B, Realtime 0.5B, ASR) berlisensi MIT. Azure AI Foundry berbayar untuk inferensi cloud.
Bisakah VibeVoice berjalan di Mac Apple Silicon?
Ada skrip komunitas untuk Mac M-series. Diskusi HuggingFace 1.5B membahas detailnya. Performa lebih lambat dari GPU CUDA.
Bagaimana VibeVoice dibandingkan ElevenLabs?
VibeVoice: gratis, lokal, privasi penuh. ElevenLabs: kualitas lebih tinggi, suara lebih banyak, mudah dipakai, tapi berbayar & cloud. Untuk privasi/offline, VibeVoice unggul. Untuk produksi/kualitas, ElevenLabs lebih baik.
Kenapa repo GitHub sempat dinonaktifkan?
Penyalahgunaan kloning suara untuk peniruan dan deepfake. Microsoft tambahkan penafian, watermark, lalu aktifkan kembali. Fork komunitas tetap berjalan selama downtime.
Bisakah saya fine-tune VibeVoice untuk suara kustom?
Bisa. Ada 12 varian fine-tune di HuggingFace. Butuh sample audio (WAV 24kHz mono, 30-60 detik) dan GPU training.
Output audio apa yang dihasilkan VibeVoice?
WAV 24.000 Hz mono. Konversi ke MP3, OGG, FLAC pakai ffmpeg.
Bisakah VibeVoice-ASR menggantikan Whisper?
Untuk audio panjang & ID pembicara, ya. VibeVoice-ASR handle 60 menit sekali jalan. Whisper lebih baik untuk klip pendek/bising/device edge.
Apakah VibeVoice mendukung voice chat real-time?
VibeVoice-Realtime-0.5B dukung input teks streaming (latensi ~300ms), cocok aplikasi semi-realtime. Untuk voice chat duplex penuh, gunakan GPT-Realtime Azure OpenAI atau solusi lain.






Top comments (0)