Sebastian Petrus

Posted on Apr 2 • Originally published at apidog.com

Microsoft VibeVoice Là Gì? Cách Sử Dụng Mô Hình AI Giọng Nói Nguồn Mở

#ai #microsoft #opensource #tutorial

Tóm tắt

VibeVoice là họ AI giọng nói mã nguồn mở của Microsoft với ba mô hình: VibeVoice-1.5B cho chuyển văn bản thành giọng nói (TTS, lên đến 90 phút, 4 người nói), VibeVoice-Realtime-0.5B cho TTS thời gian thực, và VibeVoice-ASR cho nhận dạng giọng nói (ASR, âm thanh 60 phút, hơn 50 ngôn ngữ, WER 7.77%). Tất cả các mô hình đều được cấp phép MIT, chạy cục bộ và có thể tích hợp dễ dàng vào workflow của bạn. Hướng dẫn này tập trung vào cài đặt, sử dụng và tích hợp API cho Dev.to developers.

Dùng thử Apidog ngay hôm nay

Giới thiệu

Microsoft đã phát hành VibeVoice như một framework AI giọng nói mã nguồn mở đầu 2026, gồm các mô hình tổng hợp giọng nói và nhận dạng giọng nói, đều chạy cục bộ—không phụ thuộc đám mây.

Ba mô hình chính:

VibeVoice-1.5B: Tổng hợp hội thoại đa giọng nói, tối đa 90 phút, 4 người nói.
VibeVoice-Realtime-0.5B: TTS truyền trực tuyến, độ trễ ~300ms.
VibeVoice-ASR: Phiên âm lên tới 60 phút, nhận diện người nói, dấu thời gian, đa ngôn ngữ.

Các mô hình TTS đã từng bị vô hiệu hóa do lạm dụng nhân bản giọng nói, nhưng hiện tại đã có các biện pháp bảo vệ như tuyên bố AI có thể nghe, đánh dấu xác thực. VibeVoice-ASR có sẵn trên Azure AI Foundry cho triển khai đám mây.

VibeVoice hoạt động như thế nào: Tổng quan kiến trúc

Đột phá về tokenizer

VibeVoice sử dụng các trình mã hóa giọng nói liên tục hoạt động ở tốc độ khung hình cực thấp 7.5 Hz (so với 50-100 Hz ở các mô hình khác). Điều này giúp mô hình xử lý chuỗi âm thanh dài mà không mất ngữ cảnh.

Hai tokenizer:

Acoustic Tokenizer: Giảm lấy mẫu 3.200x từ audio 24kHz, ~340M tham số.
Semantic Tokenizer: Kiến trúc tương tự Acoustic, được huấn luyện với nhiệm vụ proxy ASR.

LLM backbone và Diffusion head

Backbone: LLM Qwen2.5-1.5B.
Đầu phân tán: ~123M tham số, tạo chi tiết âm thanh bằng DDPM với Classifier-Free Guidance.
Tổng số tham số toàn mô hình: 3B.

Huấn luyện curriculum

Mô hình được huấn luyện dần trên chuỗi dài hơn (4K→16K→32K→64K token), tokenizer được khóa, chỉ cập nhật tham số LLM và diffusion head.

Thông số kỹ thuật mô hình

Mô hình	Tham số	Mục đích	Độ dài tối đa	Ngôn ngữ	Giấy phép
VibeVoice-1.5B	3B	TTS	90 phút	Tiếng Anh, Tiếng Trung	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS truyền trực tuyến	Dài hạn	Tiếng Anh, Tiếng Trung	MIT
VibeVoice-ASR	~9B	ASR	60 phút	50+ ngôn ngữ	MIT

VibeVoice-1.5B (TTS)

Thông số kỹ thuật	Giá trị
Cơ sở LLM	Qwen2.5-1.5B
Độ dài ngữ cảnh	64K token
Số người nói tối đa	4 đồng thời
Đầu ra âm thanh	24kHz WAV mono
Kiểu tensor	BF16
Định dạng	Safetensors
Tải xuống HF	62,630/tháng
Nhánh cộng đồng	12 biến thể tinh chỉnh

VibeVoice-ASR

Thông số kỹ thuật	Giá trị
Kiến trúc cơ sở	Qwen2.5
Tham số	~9B
Xử lý âm thanh	60 phút/lần
Tốc độ khung hình	7.5 Hz
WER trung bình	7.77% (8 bộ EN)
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
Ngôn ngữ	50+
Đầu ra	Có cấu trúc
Âm thanh hỗ trợ	WAV/FLAC/MP3 16kHz+

Cài đặt và thiết lập

Yêu cầu phần cứng

Python 3.8+
NVIDIA GPU hỗ trợ CUDA
7-8GB VRAM cho TTS, 24GB+ VRAM cho ASR (A100/H100 khuyến nghị)
RAM tối thiểu 32GB (64GB cho ASR)
CUDA 11.8+ (khuyến nghị 12.0+)

Cài đặt VibeVoice TTS

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements.txt

Tải trước mô hình (tùy chọn):

from huggingface_hub import snapshot_download
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Cài đặt qua pip (gói cộng đồng)

pip install vibevoice

Cài đặt cho ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Hoặc triển khai qua Azure AI Foundry để suy luận đám mây.

Tạo giọng nói với VibeVoice-1.5B

Tạo giọng nói đơn người nói

Tạo file văn bản script.txt:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Chạy suy luận:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Đầu ra là file .wav trong outputs/.

Tạo podcast đa người nói

Tạo podcast_script.txt với tối đa 4 người nói:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
...

Chạy mô hình:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Nhân bản giọng nói (zero-shot)

Chuẩn bị file WAV mono, 24kHz, 30-60s:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Mở giao diện Gradio:
```
python demo/gradio_demo.py
```
Truy cập http://127.0.0.1:7860 để upload file tham chiếu và tạo giọng nói.

Truyền trực tuyến với VibeVoice-Realtime-0.5B

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Sử dụng cho ứng dụng real-time, trade-off chất lượng và tốc độ.

Sử dụng VibeVoice với Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

model_path = snapshot_download("microsoft/VibeVoice-1.5B")
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI cho sản xuất

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Gọi API TTS kiểu OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Bạn có thể test tích hợp với Apidog dùng đúng định dạng request như OpenAI.

Sử dụng VibeVoice-ASR để nhận dạng giọng nói

Phiên âm cơ bản

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Định dạng đầu ra có cấu trúc

VibeVoice-ASR trả về JSON:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    ...
  ]
}

Chạy ASR dưới dạng server MCP

pip install vibevoice-mcp-server
vibevoice-mcp serve

Kết nối với Claude Code, Cursor, hoặc các công cụ code AI để phiên âm tự động.

Khi nào nên dùng VibeVoice-ASR thay vì Whisper

Trường hợp sử dụng	Lựa chọn tốt nhất	Lý do
Cuộc họp dài (30-60 phút)	VibeVoice-ASR	Xử lý một lần, nhận diện người nói
Phỏng vấn nhiều người nói	VibeVoice-ASR	Phân biệt người nói tích hợp
Podcast cần dấu thời gian	VibeVoice-ASR	Đầu ra có cấu trúc Ai/Khi nào/Gì
Nội dung đa ngôn ngữ (50+)	VibeVoice-ASR	Hỗ trợ đa ngôn ngữ rộng
Đoạn ngắn, môi trường ồn	Whisper	Chống ồn tốt hơn
Thiết bị biên/di động	Whisper	Nhẹ, chạy trên nhiều thiết bị
Ngôn ngữ không phải tiếng Anh	Whisper	Đa ngôn ngữ trưởng thành hơn

Kiểm tra API AI giọng nói với Apidog

Dù lựa chọn FastAPI, Azure AI Foundry, hay xây dựng API riêng, Apidog giúp bạn kiểm thử nhanh chóng.

Kiểm tra điểm cuối TTS

Tạo request POST tới endpoint TTS (ví dụ FastAPI wrapper)

Nội dung JSON:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

Gửi request, xác nhận response có header audio/wav.
Lưu file WAV, kiểm tra chất lượng âm thanh.

Kiểm tra điểm cuối ASR

Request POST kiểu multipart/form-data đính kèm file audio.
Xác thực response JSON có đủ ID người nói, timestamp và transcript.

Xác thực hợp đồng API âm thanh

Tải lên file nhị phân cho ASR.
Định dạng JSON cho TTS.
Kiểm tra response phiên âm có cấu trúc.
Sử dụng biến môi trường để chuyển đổi endpoint local/đám mây.

Tải Apidog để kiểm thử tích hợp trước khi deploy.

An toàn và sử dụng có trách nhiệm

Microsoft đã thêm các biện pháp bảo vệ:

Tuyên bố miễn trừ trách nhiệm nghe được: Tất cả audio tạo ra đều có thông báo “Đoạn này được tạo bởi AI”.
Đánh dấu không thể nhận biết: Dấu ẩn xác thực nguồn gốc.
Ghi nhật ký suy luận: Hash log để phát hiện lạm dụng.
Giấy phép MIT: Cho phép thương mại, khuyến cáo kiểm thử kỹ trước khi sản xuất.

Được phép

Nghiên cứu, học thuật
Prototyping, thử nghiệm nội bộ
Podcast minh bạch về AI
Hỗ trợ tiếp cận

Không được phép

Mạo danh không đồng ý
Deepfake, trình bày AI là người thật
Biến đổi giọng nói real-time cho deepfake trực tiếp
Tạo nhạc, hiệu ứng âm thanh

Hạn chế cần biết

TTS chỉ hỗ trợ Anh/Trung. Các ngôn ngữ khác đầu ra không ổn định. ASR hỗ trợ 50+ ngôn ngữ.

ASR yêu cầu VRAM cao: 24GB+ VRAM (A100/H100). TTS chạy được trên GPU tiêu dùng.

Không xử lý nói chồng. Hội thoại phải luân phiên từng lượt.

Kế thừa sai lệch LLM. Có thể bị bias, lỗi ngoài ngôn ngữ.

Mức độ sản phẩm: Cấp nghiên cứu, cần kiểm thử kỹ các trường hợp biên.

Triển khai VibeVoice-ASR trên Azure AI Foundry

Bạn không muốn quản lý GPU? Dùng VibeVoice-ASR trên Azure AI Foundry để nhận API endpoint quản lý, tự động scale, cập nhật mô hình, bảo trì hạ tầng. Giao tiếp HTTPS, trả về transcript có cấu trúc "Ai/Khi nào/Gì" như bản cục bộ.

Test endpoint bằng cách nhập URL và headers vào Apidog, chạy thử trước khi tích hợp vào app thực tế.

Cộng đồng và hệ sinh thái

62.630+ download/tháng trên HuggingFace
2.280+ lượt thích
79+ HuggingFace Spaces đang chạy mô hình
12 biến thể tinh chỉnh cộng đồng
4 phiên bản lượng tử hóa cho VRAM thấp
Nhánh cộng đồng: vibevoice-community/VibeVoice

Dự án cộng đồng nổi bật:

VibeVoice-FastAPI: REST API wrapper cho Docker
VibeVoice MCP Server: Kết nối AI code tools
Apple Silicon scripts: Chạy trên Mac M-series
Các mô hình lượng tử hóa: GGUF,...

Câu hỏi thường gặp

VibeVoice có miễn phí không?

Có. Các mô hình đều MIT, dùng tự do. Azure AI Foundry tính phí inference đám mây.

Chạy được trên Mac Apple Silicon?

Được, có script cộng đồng cho Mac M, hiệu suất chậm hơn CUDA GPU nhưng vẫn chạy.

So với ElevenLabs thế nào?

VibeVoice: cục bộ, không phí API, không gửi dữ liệu ra ngoài. ElevenLabs: chất lượng/giọng nói tốt hơn, dễ dùng, trả phí, chạy cloud.

Tại sao GitHub repo từng bị khóa?

Microsoft khóa repo khi có deepfake/mạo danh, thêm bảo vệ rồi mở lại. Nhánh cộng đồng tiếp tục phát triển trong thời gian này.

Có thể tinh chỉnh giọng nói không?

Có. Cộng đồng đã tạo 12 biến thể trên HuggingFace. Cần audio mẫu rõ ràng 24kHz mono và GPU để train.

Đầu ra audio định dạng nào?

WAV 24kHz mono. Dùng ffmpeg chuyển sang MP3, OGG, FLAC,...

Dùng VibeVoice-ASR thay Whisper được không?

Với audio dài, nhận diện người nói: Có. Whisper tốt hơn cho đoạn ngắn, ồn, hoặc thiết bị yếu.

Hỗ trợ thoại real-time không?

VibeVoice-Realtime-0.5B hỗ trợ truyền văn bản realtime (~300ms). Không phải song công hoàn chỉnh; nếu cần, xem giải pháp Azure OpenAI’s GPT-Realtime.

Dùng thử Apidog ngay hôm nay để kiểm thử API AI giọng nói của bạn dễ dàng hơn trước khi đưa vào sản xuất!