Tóm tắt
VibeVoice là họ AI giọng nói mã nguồn mở của Microsoft với ba mô hình: VibeVoice-1.5B cho chuyển văn bản thành giọng nói (TTS, lên đến 90 phút, 4 người nói), VibeVoice-Realtime-0.5B cho TTS thời gian thực, và VibeVoice-ASR cho nhận dạng giọng nói (ASR, âm thanh 60 phút, hơn 50 ngôn ngữ, WER 7.77%). Tất cả các mô hình đều được cấp phép MIT, chạy cục bộ và có thể tích hợp dễ dàng vào workflow của bạn. Hướng dẫn này tập trung vào cài đặt, sử dụng và tích hợp API cho Dev.to developers.
Giới thiệu
Microsoft đã phát hành VibeVoice như một framework AI giọng nói mã nguồn mở đầu 2026, gồm các mô hình tổng hợp giọng nói và nhận dạng giọng nói, đều chạy cục bộ—không phụ thuộc đám mây.
Ba mô hình chính:
- VibeVoice-1.5B: Tổng hợp hội thoại đa giọng nói, tối đa 90 phút, 4 người nói.
- VibeVoice-Realtime-0.5B: TTS truyền trực tuyến, độ trễ ~300ms.
- VibeVoice-ASR: Phiên âm lên tới 60 phút, nhận diện người nói, dấu thời gian, đa ngôn ngữ.
Các mô hình TTS đã từng bị vô hiệu hóa do lạm dụng nhân bản giọng nói, nhưng hiện tại đã có các biện pháp bảo vệ như tuyên bố AI có thể nghe, đánh dấu xác thực. VibeVoice-ASR có sẵn trên Azure AI Foundry cho triển khai đám mây.
VibeVoice hoạt động như thế nào: Tổng quan kiến trúc
Đột phá về tokenizer
VibeVoice sử dụng các trình mã hóa giọng nói liên tục hoạt động ở tốc độ khung hình cực thấp 7.5 Hz (so với 50-100 Hz ở các mô hình khác). Điều này giúp mô hình xử lý chuỗi âm thanh dài mà không mất ngữ cảnh.
Hai tokenizer:
- Acoustic Tokenizer: Giảm lấy mẫu 3.200x từ audio 24kHz, ~340M tham số.
- Semantic Tokenizer: Kiến trúc tương tự Acoustic, được huấn luyện với nhiệm vụ proxy ASR.
LLM backbone và Diffusion head
- Backbone: LLM Qwen2.5-1.5B.
- Đầu phân tán: ~123M tham số, tạo chi tiết âm thanh bằng DDPM với Classifier-Free Guidance.
- Tổng số tham số toàn mô hình: 3B.
Huấn luyện curriculum
Mô hình được huấn luyện dần trên chuỗi dài hơn (4K→16K→32K→64K token), tokenizer được khóa, chỉ cập nhật tham số LLM và diffusion head.
Thông số kỹ thuật mô hình
| Mô hình | Tham số | Mục đích | Độ dài tối đa | Ngôn ngữ | Giấy phép |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B | TTS | 90 phút | Tiếng Anh, Tiếng Trung | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS truyền trực tuyến | Dài hạn | Tiếng Anh, Tiếng Trung | MIT |
| VibeVoice-ASR | ~9B | ASR | 60 phút | 50+ ngôn ngữ | MIT |
VibeVoice-1.5B (TTS)
| Thông số kỹ thuật | Giá trị |
|---|---|
| Cơ sở LLM | Qwen2.5-1.5B |
| Độ dài ngữ cảnh | 64K token |
| Số người nói tối đa | 4 đồng thời |
| Đầu ra âm thanh | 24kHz WAV mono |
| Kiểu tensor | BF16 |
| Định dạng | Safetensors |
| Tải xuống HF | 62,630/tháng |
| Nhánh cộng đồng | 12 biến thể tinh chỉnh |
VibeVoice-ASR
| Thông số kỹ thuật | Giá trị |
|---|---|
| Kiến trúc cơ sở | Qwen2.5 |
| Tham số | ~9B |
| Xử lý âm thanh | 60 phút/lần |
| Tốc độ khung hình | 7.5 Hz |
| WER trung bình | 7.77% (8 bộ EN) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| Ngôn ngữ | 50+ |
| Đầu ra | Có cấu trúc |
| Âm thanh hỗ trợ | WAV/FLAC/MP3 16kHz+ |
Cài đặt và thiết lập
Yêu cầu phần cứng
- Python 3.8+
- NVIDIA GPU hỗ trợ CUDA
- 7-8GB VRAM cho TTS, 24GB+ VRAM cho ASR (A100/H100 khuyến nghị)
- RAM tối thiểu 32GB (64GB cho ASR)
- CUDA 11.8+ (khuyến nghị 12.0+)
Cài đặt VibeVoice TTS
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements.txt
Tải trước mô hình (tùy chọn):
from huggingface_hub import snapshot_download
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Cài đặt qua pip (gói cộng đồng)
pip install vibevoice
Cài đặt cho ASR
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Hoặc triển khai qua Azure AI Foundry để suy luận đám mây.
Tạo giọng nói với VibeVoice-1.5B
Tạo giọng nói đơn người nói
-
Tạo file văn bản
script.txt:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026. -
Chạy suy luận:
python VibeVoice \ --model_path microsoft/VibeVoice-1.5B \ --txt_path script.txt \ --speaker_names Alice \ --cfg_scale 1.5
- Đầu ra là file
.wavtrongoutputs/.
Tạo podcast đa người nói
-
Tạo
podcast_script.txtvới tối đa 4 người nói:
Alice: Welcome back to the show. Today we have two API experts joining us. Bob: Thanks for having me. I've been working on REST API design patterns for the past five years. Carol: And I focus on GraphQL performance optimization. Happy to be here. ... -
Chạy mô hình:
python VibeVoice \ --model_path microsoft/VibeVoice-1.5B \ --txt_path podcast_script.txt \ --speaker_names Alice Bob Carol \ --cfg_scale 1.5
Nhân bản giọng nói (zero-shot)
-
Chuẩn bị file WAV mono, 24kHz, 30-60s:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav -
Mở giao diện Gradio:
python demo/gradio_demo.py Truy cập
http://127.0.0.1:7860để upload file tham chiếu và tạo giọng nói.
Truyền trực tuyến với VibeVoice-Realtime-0.5B
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
- Sử dụng cho ứng dụng real-time, trade-off chất lượng và tốc độ.
Sử dụng VibeVoice với Python
API Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Wrapper FastAPI cho sản xuất
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Gọi API TTS kiểu OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
Bạn có thể test tích hợp với Apidog dùng đúng định dạng request như OpenAI.
Sử dụng VibeVoice-ASR để nhận dạng giọng nói
Phiên âm cơ bản
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Định dạng đầu ra có cấu trúc
VibeVoice-ASR trả về JSON:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
...
]
}
Chạy ASR dưới dạng server MCP
pip install vibevoice-mcp-server
vibevoice-mcp serve
Kết nối với Claude Code, Cursor, hoặc các công cụ code AI để phiên âm tự động.
Khi nào nên dùng VibeVoice-ASR thay vì Whisper
| Trường hợp sử dụng | Lựa chọn tốt nhất | Lý do |
|---|---|---|
| Cuộc họp dài (30-60 phút) | VibeVoice-ASR | Xử lý một lần, nhận diện người nói |
| Phỏng vấn nhiều người nói | VibeVoice-ASR | Phân biệt người nói tích hợp |
| Podcast cần dấu thời gian | VibeVoice-ASR | Đầu ra có cấu trúc Ai/Khi nào/Gì |
| Nội dung đa ngôn ngữ (50+) | VibeVoice-ASR | Hỗ trợ đa ngôn ngữ rộng |
| Đoạn ngắn, môi trường ồn | Whisper | Chống ồn tốt hơn |
| Thiết bị biên/di động | Whisper | Nhẹ, chạy trên nhiều thiết bị |
| Ngôn ngữ không phải tiếng Anh | Whisper | Đa ngôn ngữ trưởng thành hơn |
Kiểm tra API AI giọng nói với Apidog
Dù lựa chọn FastAPI, Azure AI Foundry, hay xây dựng API riêng, Apidog giúp bạn kiểm thử nhanh chóng.
Kiểm tra điểm cuối TTS
- Tạo request POST tới endpoint TTS (ví dụ FastAPI wrapper)
-
Nội dung JSON:
{ "model": "vibevoice-1.5b", "input": "Test speech synthesis with proper intonation and pacing.", "voice": "alice", "response_format": "wav" } Gửi request, xác nhận response có header
audio/wav.Lưu file WAV, kiểm tra chất lượng âm thanh.
Kiểm tra điểm cuối ASR
- Request POST kiểu
multipart/form-datađính kèm file audio. - Xác thực response JSON có đủ ID người nói, timestamp và transcript.
Xác thực hợp đồng API âm thanh
- Tải lên file nhị phân cho ASR.
- Định dạng JSON cho TTS.
- Kiểm tra response phiên âm có cấu trúc.
- Sử dụng biến môi trường để chuyển đổi endpoint local/đám mây.
Tải Apidog để kiểm thử tích hợp trước khi deploy.
An toàn và sử dụng có trách nhiệm
Microsoft đã thêm các biện pháp bảo vệ:
- Tuyên bố miễn trừ trách nhiệm nghe được: Tất cả audio tạo ra đều có thông báo “Đoạn này được tạo bởi AI”.
- Đánh dấu không thể nhận biết: Dấu ẩn xác thực nguồn gốc.
- Ghi nhật ký suy luận: Hash log để phát hiện lạm dụng.
- Giấy phép MIT: Cho phép thương mại, khuyến cáo kiểm thử kỹ trước khi sản xuất.
Được phép
- Nghiên cứu, học thuật
- Prototyping, thử nghiệm nội bộ
- Podcast minh bạch về AI
- Hỗ trợ tiếp cận
Không được phép
- Mạo danh không đồng ý
- Deepfake, trình bày AI là người thật
- Biến đổi giọng nói real-time cho deepfake trực tiếp
- Tạo nhạc, hiệu ứng âm thanh
Hạn chế cần biết
TTS chỉ hỗ trợ Anh/Trung. Các ngôn ngữ khác đầu ra không ổn định. ASR hỗ trợ 50+ ngôn ngữ.
ASR yêu cầu VRAM cao: 24GB+ VRAM (A100/H100). TTS chạy được trên GPU tiêu dùng.
Không xử lý nói chồng. Hội thoại phải luân phiên từng lượt.
Kế thừa sai lệch LLM. Có thể bị bias, lỗi ngoài ngôn ngữ.
Mức độ sản phẩm: Cấp nghiên cứu, cần kiểm thử kỹ các trường hợp biên.
Triển khai VibeVoice-ASR trên Azure AI Foundry
Bạn không muốn quản lý GPU? Dùng VibeVoice-ASR trên Azure AI Foundry để nhận API endpoint quản lý, tự động scale, cập nhật mô hình, bảo trì hạ tầng. Giao tiếp HTTPS, trả về transcript có cấu trúc "Ai/Khi nào/Gì" như bản cục bộ.
Test endpoint bằng cách nhập URL và headers vào Apidog, chạy thử trước khi tích hợp vào app thực tế.
Cộng đồng và hệ sinh thái
- 62.630+ download/tháng trên HuggingFace
- 2.280+ lượt thích
- 79+ HuggingFace Spaces đang chạy mô hình
- 12 biến thể tinh chỉnh cộng đồng
- 4 phiên bản lượng tử hóa cho VRAM thấp
-
Nhánh cộng đồng:
vibevoice-community/VibeVoice
Dự án cộng đồng nổi bật:
- VibeVoice-FastAPI: REST API wrapper cho Docker
- VibeVoice MCP Server: Kết nối AI code tools
- Apple Silicon scripts: Chạy trên Mac M-series
- Các mô hình lượng tử hóa: GGUF,...
Câu hỏi thường gặp
VibeVoice có miễn phí không?
Có. Các mô hình đều MIT, dùng tự do. Azure AI Foundry tính phí inference đám mây.
Chạy được trên Mac Apple Silicon?
Được, có script cộng đồng cho Mac M, hiệu suất chậm hơn CUDA GPU nhưng vẫn chạy.
So với ElevenLabs thế nào?
VibeVoice: cục bộ, không phí API, không gửi dữ liệu ra ngoài. ElevenLabs: chất lượng/giọng nói tốt hơn, dễ dùng, trả phí, chạy cloud.
Tại sao GitHub repo từng bị khóa?
Microsoft khóa repo khi có deepfake/mạo danh, thêm bảo vệ rồi mở lại. Nhánh cộng đồng tiếp tục phát triển trong thời gian này.
Có thể tinh chỉnh giọng nói không?
Có. Cộng đồng đã tạo 12 biến thể trên HuggingFace. Cần audio mẫu rõ ràng 24kHz mono và GPU để train.
Đầu ra audio định dạng nào?
WAV 24kHz mono. Dùng ffmpeg chuyển sang MP3, OGG, FLAC,...
Dùng VibeVoice-ASR thay Whisper được không?
Với audio dài, nhận diện người nói: Có. Whisper tốt hơn cho đoạn ngắn, ồn, hoặc thiết bị yếu.
Hỗ trợ thoại real-time không?
VibeVoice-Realtime-0.5B hỗ trợ truyền văn bản realtime (~300ms). Không phải song công hoàn chỉnh; nếu cần, xem giải pháp Azure OpenAI’s GPT-Realtime.
Dùng thử Apidog ngay hôm nay để kiểm thử API AI giọng nói của bạn dễ dàng hơn trước khi đưa vào sản xuất!






Top comments (0)