DEV Community

Cover image for Microsoft VibeVoice Là Gì? Cách Sử Dụng Mô Hình AI Giọng Nói Nguồn Mở
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Microsoft VibeVoice Là Gì? Cách Sử Dụng Mô Hình AI Giọng Nói Nguồn Mở

Tóm tắt

VibeVoice là họ AI giọng nói mã nguồn mở của Microsoft với ba mô hình: VibeVoice-1.5B cho chuyển văn bản thành giọng nói (TTS, lên đến 90 phút, 4 người nói), VibeVoice-Realtime-0.5B cho TTS thời gian thực, và VibeVoice-ASR cho nhận dạng giọng nói (ASR, âm thanh 60 phút, hơn 50 ngôn ngữ, WER 7.77%). Tất cả các mô hình đều được cấp phép MIT, chạy cục bộ và có thể tích hợp dễ dàng vào workflow của bạn. Hướng dẫn này tập trung vào cài đặt, sử dụng và tích hợp API cho Dev.to developers.

Dùng thử Apidog ngay hôm nay

Giới thiệu

Microsoft đã phát hành VibeVoice như một framework AI giọng nói mã nguồn mở đầu 2026, gồm các mô hình tổng hợp giọng nói và nhận dạng giọng nói, đều chạy cục bộ—không phụ thuộc đám mây.

Tổng quan về VibeVoice

Ba mô hình chính:

  • VibeVoice-1.5B: Tổng hợp hội thoại đa giọng nói, tối đa 90 phút, 4 người nói.
  • VibeVoice-Realtime-0.5B: TTS truyền trực tuyến, độ trễ ~300ms.
  • VibeVoice-ASR: Phiên âm lên tới 60 phút, nhận diện người nói, dấu thời gian, đa ngôn ngữ.

Đầu ra VibeVoice

Các mô hình TTS đã từng bị vô hiệu hóa do lạm dụng nhân bản giọng nói, nhưng hiện tại đã có các biện pháp bảo vệ như tuyên bố AI có thể nghe, đánh dấu xác thực. VibeVoice-ASR có sẵn trên Azure AI Foundry cho triển khai đám mây.

VibeVoice hoạt động như thế nào: Tổng quan kiến trúc

Đột phá về tokenizer

VibeVoice sử dụng các trình mã hóa giọng nói liên tục hoạt động ở tốc độ khung hình cực thấp 7.5 Hz (so với 50-100 Hz ở các mô hình khác). Điều này giúp mô hình xử lý chuỗi âm thanh dài mà không mất ngữ cảnh.

Tokenizer VibeVoice
Kiến trúc mã hóa VibeVoice

Hai tokenizer:

  • Acoustic Tokenizer: Giảm lấy mẫu 3.200x từ audio 24kHz, ~340M tham số.
  • Semantic Tokenizer: Kiến trúc tương tự Acoustic, được huấn luyện với nhiệm vụ proxy ASR.

LLM backbone và Diffusion head

  • Backbone: LLM Qwen2.5-1.5B.
  • Đầu phân tán: ~123M tham số, tạo chi tiết âm thanh bằng DDPM với Classifier-Free Guidance.
  • Tổng số tham số toàn mô hình: 3B.

Huấn luyện curriculum

Mô hình được huấn luyện dần trên chuỗi dài hơn (4K→16K→32K→64K token), tokenizer được khóa, chỉ cập nhật tham số LLM và diffusion head.

Thông số kỹ thuật mô hình

Mô hình Tham số Mục đích Độ dài tối đa Ngôn ngữ Giấy phép
VibeVoice-1.5B 3B TTS 90 phút Tiếng Anh, Tiếng Trung MIT
VibeVoice-Realtime-0.5B ~0.5B TTS truyền trực tuyến Dài hạn Tiếng Anh, Tiếng Trung MIT
VibeVoice-ASR ~9B ASR 60 phút 50+ ngôn ngữ MIT

VibeVoice-1.5B (TTS)

Thông số kỹ thuật Giá trị
Cơ sở LLM Qwen2.5-1.5B
Độ dài ngữ cảnh 64K token
Số người nói tối đa 4 đồng thời
Đầu ra âm thanh 24kHz WAV mono
Kiểu tensor BF16
Định dạng Safetensors
Tải xuống HF 62,630/tháng
Nhánh cộng đồng 12 biến thể tinh chỉnh

VibeVoice-ASR

Thông số kỹ thuật Giá trị
Kiến trúc cơ sở Qwen2.5
Tham số ~9B
Xử lý âm thanh 60 phút/lần
Tốc độ khung hình 7.5 Hz
WER trung bình 7.77% (8 bộ EN)
LibriSpeech Clean WER 2.20%
TED-LIUM WER 2.57%
Ngôn ngữ 50+
Đầu ra Có cấu trúc
Âm thanh hỗ trợ WAV/FLAC/MP3 16kHz+

Cài đặt và thiết lập

Yêu cầu phần cứng

  • Python 3.8+
  • NVIDIA GPU hỗ trợ CUDA
  • 7-8GB VRAM cho TTS, 24GB+ VRAM cho ASR (A100/H100 khuyến nghị)
  • RAM tối thiểu 32GB (64GB cho ASR)
  • CUDA 11.8+ (khuyến nghị 12.0+)

Cài đặt VibeVoice TTS

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements.txt
Enter fullscreen mode Exit fullscreen mode

Tải trước mô hình (tùy chọn):

from huggingface_hub import snapshot_download
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)
Enter fullscreen mode Exit fullscreen mode

Cài đặt qua pip (gói cộng đồng)

pip install vibevoice
Enter fullscreen mode Exit fullscreen mode

Cài đặt cho ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Enter fullscreen mode Exit fullscreen mode

Hoặc triển khai qua Azure AI Foundry để suy luận đám mây.

Tạo giọng nói với VibeVoice-1.5B

Tạo giọng nói đơn người nói

  1. Tạo file văn bản script.txt:

    Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
    
  2. Chạy suy luận:

    python VibeVoice \
      --model_path microsoft/VibeVoice-1.5B \
      --txt_path script.txt \
      --speaker_names Alice \
      --cfg_scale 1.5
    
  • Đầu ra là file .wav trong outputs/.

Tạo podcast đa người nói

  1. Tạo podcast_script.txt với tối đa 4 người nói:

    Alice: Welcome back to the show. Today we have two API experts joining us.
    Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
    Carol: And I focus on GraphQL performance optimization. Happy to be here.
    ...
    
  2. Chạy mô hình:

    python VibeVoice \
      --model_path microsoft/VibeVoice-1.5B \
      --txt_path podcast_script.txt \
      --speaker_names Alice Bob Carol \
      --cfg_scale 1.5
    

Nhân bản giọng nói (zero-shot)

  1. Chuẩn bị file WAV mono, 24kHz, 30-60s:

    ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
    
  2. Mở giao diện Gradio:

    python demo/gradio_demo.py
    
  3. Truy cập http://127.0.0.1:7860 để upload file tham chiếu và tạo giọng nói.

Truyền trực tuyến với VibeVoice-Realtime-0.5B

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice
Enter fullscreen mode Exit fullscreen mode
  • Sử dụng cho ứng dụng real-time, trade-off chất lượng và tốc độ.

Sử dụng VibeVoice với Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

model_path = snapshot_download("microsoft/VibeVoice-1.5B")
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Enter fullscreen mode Exit fullscreen mode

Wrapper FastAPI cho sản xuất

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Enter fullscreen mode Exit fullscreen mode

Gọi API TTS kiểu OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav
Enter fullscreen mode Exit fullscreen mode

Bạn có thể test tích hợp với Apidog dùng đúng định dạng request như OpenAI.

Sử dụng VibeVoice-ASR để nhận dạng giọng nói

Phiên âm cơ bản

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav
Enter fullscreen mode Exit fullscreen mode

Định dạng đầu ra có cấu trúc

VibeVoice-ASR trả về JSON:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    ...
  ]
}
Enter fullscreen mode Exit fullscreen mode

Chạy ASR dưới dạng server MCP

pip install vibevoice-mcp-server
vibevoice-mcp serve
Enter fullscreen mode Exit fullscreen mode

Kết nối với Claude Code, Cursor, hoặc các công cụ code AI để phiên âm tự động.

Khi nào nên dùng VibeVoice-ASR thay vì Whisper

Trường hợp sử dụng Lựa chọn tốt nhất Lý do
Cuộc họp dài (30-60 phút) VibeVoice-ASR Xử lý một lần, nhận diện người nói
Phỏng vấn nhiều người nói VibeVoice-ASR Phân biệt người nói tích hợp
Podcast cần dấu thời gian VibeVoice-ASR Đầu ra có cấu trúc Ai/Khi nào/Gì
Nội dung đa ngôn ngữ (50+) VibeVoice-ASR Hỗ trợ đa ngôn ngữ rộng
Đoạn ngắn, môi trường ồn Whisper Chống ồn tốt hơn
Thiết bị biên/di động Whisper Nhẹ, chạy trên nhiều thiết bị
Ngôn ngữ không phải tiếng Anh Whisper Đa ngôn ngữ trưởng thành hơn

Kiểm tra API AI giọng nói với Apidog

Dù lựa chọn FastAPI, Azure AI Foundry, hay xây dựng API riêng, Apidog giúp bạn kiểm thử nhanh chóng.

Giao diện Apidog

Kiểm tra điểm cuối TTS

  1. Tạo request POST tới endpoint TTS (ví dụ FastAPI wrapper)
  2. Nội dung JSON:

    {
      "model": "vibevoice-1.5b",
      "input": "Test speech synthesis with proper intonation and pacing.",
      "voice": "alice",
      "response_format": "wav"
    }
    
  3. Gửi request, xác nhận response có header audio/wav.

  4. Lưu file WAV, kiểm tra chất lượng âm thanh.

Kiểm tra điểm cuối ASR

  1. Request POST kiểu multipart/form-data đính kèm file audio.
  2. Xác thực response JSON có đủ ID người nói, timestamp và transcript.

Xác thực hợp đồng API âm thanh

  • Tải lên file nhị phân cho ASR.
  • Định dạng JSON cho TTS.
  • Kiểm tra response phiên âm có cấu trúc.
  • Sử dụng biến môi trường để chuyển đổi endpoint local/đám mây.

Tải Apidog để kiểm thử tích hợp trước khi deploy.

An toàn và sử dụng có trách nhiệm

Microsoft đã thêm các biện pháp bảo vệ:

  • Tuyên bố miễn trừ trách nhiệm nghe được: Tất cả audio tạo ra đều có thông báo “Đoạn này được tạo bởi AI”.
  • Đánh dấu không thể nhận biết: Dấu ẩn xác thực nguồn gốc.
  • Ghi nhật ký suy luận: Hash log để phát hiện lạm dụng.
  • Giấy phép MIT: Cho phép thương mại, khuyến cáo kiểm thử kỹ trước khi sản xuất.

Được phép

  • Nghiên cứu, học thuật
  • Prototyping, thử nghiệm nội bộ
  • Podcast minh bạch về AI
  • Hỗ trợ tiếp cận

Không được phép

  • Mạo danh không đồng ý
  • Deepfake, trình bày AI là người thật
  • Biến đổi giọng nói real-time cho deepfake trực tiếp
  • Tạo nhạc, hiệu ứng âm thanh

Hạn chế cần biết

TTS chỉ hỗ trợ Anh/Trung. Các ngôn ngữ khác đầu ra không ổn định. ASR hỗ trợ 50+ ngôn ngữ.

Sự thiên vị của mô hình VibeVoice

ASR yêu cầu VRAM cao: 24GB+ VRAM (A100/H100). TTS chạy được trên GPU tiêu dùng.

Không xử lý nói chồng. Hội thoại phải luân phiên từng lượt.

Kế thừa sai lệch LLM. Có thể bị bias, lỗi ngoài ngôn ngữ.

Mức độ sản phẩm: Cấp nghiên cứu, cần kiểm thử kỹ các trường hợp biên.

Triển khai VibeVoice-ASR trên Azure AI Foundry

Bạn không muốn quản lý GPU? Dùng VibeVoice-ASR trên Azure AI Foundry để nhận API endpoint quản lý, tự động scale, cập nhật mô hình, bảo trì hạ tầng. Giao tiếp HTTPS, trả về transcript có cấu trúc "Ai/Khi nào/Gì" như bản cục bộ.

Test endpoint bằng cách nhập URL và headers vào Apidog, chạy thử trước khi tích hợp vào app thực tế.

Cộng đồng và hệ sinh thái

  • 62.630+ download/tháng trên HuggingFace
  • 2.280+ lượt thích
  • 79+ HuggingFace Spaces đang chạy mô hình
  • 12 biến thể tinh chỉnh cộng đồng
  • 4 phiên bản lượng tử hóa cho VRAM thấp
  • Nhánh cộng đồng: vibevoice-community/VibeVoice

Dự án cộng đồng nổi bật:

  • VibeVoice-FastAPI: REST API wrapper cho Docker
  • VibeVoice MCP Server: Kết nối AI code tools
  • Apple Silicon scripts: Chạy trên Mac M-series
  • Các mô hình lượng tử hóa: GGUF,...

Câu hỏi thường gặp

VibeVoice có miễn phí không?

Có. Các mô hình đều MIT, dùng tự do. Azure AI Foundry tính phí inference đám mây.

Chạy được trên Mac Apple Silicon?

Được, có script cộng đồng cho Mac M, hiệu suất chậm hơn CUDA GPU nhưng vẫn chạy.

So với ElevenLabs thế nào?

VibeVoice: cục bộ, không phí API, không gửi dữ liệu ra ngoài. ElevenLabs: chất lượng/giọng nói tốt hơn, dễ dùng, trả phí, chạy cloud.

Tại sao GitHub repo từng bị khóa?

Microsoft khóa repo khi có deepfake/mạo danh, thêm bảo vệ rồi mở lại. Nhánh cộng đồng tiếp tục phát triển trong thời gian này.

Có thể tinh chỉnh giọng nói không?

Có. Cộng đồng đã tạo 12 biến thể trên HuggingFace. Cần audio mẫu rõ ràng 24kHz mono và GPU để train.

Đầu ra audio định dạng nào?

WAV 24kHz mono. Dùng ffmpeg chuyển sang MP3, OGG, FLAC,...

Dùng VibeVoice-ASR thay Whisper được không?

Với audio dài, nhận diện người nói: Có. Whisper tốt hơn cho đoạn ngắn, ồn, hoặc thiết bị yếu.

Hỗ trợ thoại real-time không?

VibeVoice-Realtime-0.5B hỗ trợ truyền văn bản realtime (~300ms). Không phải song công hoàn chỉnh; nếu cần, xem giải pháp Azure OpenAI’s GPT-Realtime.


Dùng thử Apidog ngay hôm nay để kiểm thử API AI giọng nói của bạn dễ dàng hơn trước khi đưa vào sản xuất!

Top comments (0)