Thanawat Wongchai

Posted on Apr 2 • Originally published at apidog.com

Microsoft VibeVoice คืออะไร? วิธีใช้โมเดล AI เสียงโอเพนซอร์ส

สรุปย่อ

VibeVoice คือชุดโมเดล AI เสียงโอเพนซอร์สจาก Microsoft ประกอบด้วย 3 โมเดลหลัก: VibeVoice-1.5B สำหรับแปลงข้อความเป็นคำพูด (TTS), VibeVoice-Realtime-0.5B สำหรับ TTS แบบสตรีมมิ่ง, และ VibeVoice-ASR สำหรับรู้จำคำพูด (ASR) ทั้งหมดรันแบบโลคอล ติดตั้งใช้งานง่าย และมี API สำหรับการรวมเข้ากับระบบของคุณ คู่มือนี้สรุปวิธีติดตั้ง การเรียกใช้งานจริง และการทดสอบ API

ทดลองใช้ Apidog วันนี้

บทนำ

Microsoft ได้เปิดตัว VibeVoice ในปี 2026 เป็นเฟรมเวิร์ก AI เสียงโอเพนซอร์สที่รวมทั้งโมเดลสังเคราะห์เสียงและรู้จำเสียง สามารถรันบนเครื่องของคุณเองโดยไม่ต้องใช้คลาวด์

เฟรมเวิร์กนี้ประกอบด้วย:

VibeVoice-1.5B: สร้างเสียงสนทนาหลายผู้พูด มีอารมณ์ ครอบคลุมสูงสุด 90 นาที รองรับ 4 ผู้พูด
VibeVoice-Realtime-0.5B: TTS แบบสตรีมมิ่ง หน่วงต่ำมาก (300ms)
VibeVoice-ASR: ถอดความเสียงต่อเนื่องสูงสุด 60 นาที, รองรับ 50+ ภาษา, พร้อมระบุผู้พูด

หลังเปิดตัวมีการควบคุมการใช้โค้ดเพื่อป้องกัน deepfake โดยเสียงที่สร้างจะมีคำเตือนฝังในเสียง และลายน้ำที่ตรวจสอบได้ โมเดล ASR มีให้ใช้งานบน Azure AI Foundry ส่วน TTS ใช้ใบอนุญาต MIT เน้นงานวิจัย

คู่มือนี้จะสอนการติดตั้ง การสร้างเสียง การรู้จำเสียง การรวม API และการทดสอบปลายทางด้วย Apidog

VibeVoice ทำงานอย่างไร: ภาพรวมสถาปัตยกรรม

ความก้าวหน้าของ Tokenizer

จุดเด่นคือ Tokenizer เสียงต่อเนื่องที่ใช้ sampling rate ต่ำมาก 7.5 Hz (เมื่อเทียบกับ 50-100 Hz ของระบบทั่วไป) ทำให้จัดการเสียงยาว (90 นาที) ได้โดยไม่หมดบริบท

ประกอบด้วย Tokenizer สองส่วน:

Acoustic Tokenizer: sigma-VAE, ลด sampling rate 3,200 เท่าจาก 24kHz
Semantic Tokenizer: โครงสร้างคล้ายกัน เน้นจับความหมายเชิงภาษา

การแพร่กระจายของโทเค็นถัดไป

โมเดลใช้ LLM (Qwen2.5-1.5B) ร่วมกับ Diffusion Head (123M พารามิเตอร์) โดย LLM จัดการบริบท ส่วน Head สร้างรายละเอียดเสียงด้วย DDPM

แนวทางการฝึกอบรม

ฝึกแบบ curriculum learning: เริ่มจากลำดับสั้น ขยายเป็น 4K, 16K, 32K, 64K token โดย tokenizer คงที่ อัปเดตเฉพาะ LLM และ Diffusion Head

ข้อมูลจำเพาะของโมเดล VibeVoice

โมเดล	พารามิเตอร์	วัตถุประสงค์	ความยาวสูงสุด	ภาษา	ใบอนุญาต
VibeVoice-1.5B	3B	ข้อความเป็นคำพูด	90 นาที	อังกฤษ, จีน	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS แบบสตรีมมิ่ง	ระยะยาว	อังกฤษ, จีน	MIT
VibeVoice-ASR	~9B	การรู้จำคำพูด	60 นาที	50+ ภาษา	MIT

VibeVoice-1.5B (TTS)

ข้อมูลจำเพาะ	ค่า
LLM พื้นฐาน	Qwen2.5-1.5B
ความยาวบริบท	64K โทเค็น
จำนวนผู้พูดสูงสุด	4 คน
เอาต์พุตเสียง	24kHz WAV โมโน
ประเภท Tensor	BF16
รูปแบบ	Safetensors

VibeVoice-ASR

ข้อมูลจำเพาะ	ค่า
สถาปัตยกรรมพื้นฐาน	Qwen2.5
พารามิเตอร์	~9B
ประมวลผลเสียงสูงสุด	60 นาที
อัตราเฟรม	7.5 Hz
WER เฉลี่ย	7.77%
ภาษา	50+
เอาต์พุต	โครงสร้าง (ใคร/เมื่อไหร่/อะไร)
รองรับไฟล์เสียง	WAV, FLAC, MP3 16kHz+

การติดตั้งและตั้งค่า

ข้อกำหนดเบื้องต้น

Python 3.8+
NVIDIA GPU รองรับ CUDA
VRAM 7-8 GB สำหรับ TTS, 24 GB+ สำหรับ ASR
RAM 32 GB (64 GB แนะนำสำหรับ ASR)
CUDA 11.8+ (แนะนำ 12.0+)

ติดตั้ง VibeVoice TTS

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements.txt

โมเดลจะดาวน์โหลดอัตโนมัติเมื่อรันครั้งแรก หรือดาวน์โหลดล่วงหน้าด้วย:

from huggingface_hub import snapshot_download

snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

ติดตั้งผ่าน pip (แพ็คเกจชุมชน)

pip install vibevoice

ติดตั้งสำหรับ ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

หรือใช้บน Azure AI Foundry สำหรับ inference คลาวด์

การสร้างเสียงพูดด้วย VibeVoice-1.5B

สร้างเสียงพูดจากผู้พูดคนเดียว

เตรียมไฟล์ข้อความ:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

รันคำสั่ง:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

เอาต์พุตจะได้ไฟล์ .wav ในโฟลเดอร์ outputs/

สร้างพอดแคสต์หลายผู้พูด

รองรับสูงสุด 4 ผู้พูด:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
...

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

การโคลนเสียง (Zero-shot)

ไฟล์อ้างอิง:

.wav (โมโน), 24kHz, 30–60 วินาที

แปลงไฟล์:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

เปิด Gradio demo UI:

python demo/gradio_demo.py

แล้วอัปโหลดเสียง/โคลนเสียงที่ UI: http://127.0.0.1:7860

สตรีมด้วย VibeVoice-Realtime-0.5B

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Realtime เหมาะกับงานโต้ตอบสด, ความเที่ยงตรงน้อยกว่า 1.5B แต่เร็วกว่า

การใช้ VibeVoice กับ Python

Pipeline API

from transformers import pipeline
from huggingface_hub import snapshot_download

model_path = snapshot_download("microsoft/VibeVoice-1.5B")

pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

input_data = pipe.processor.apply_chat_template(script)

generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

FastAPI wrapper สำหรับการใช้งานจริง

มี FastAPI wrapper ให้เรียกใช้งาน API แบบ OpenAI-compatible:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

ทดสอบ API:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

API นี้สามารถทดสอบผ่าน Apidog ได้ทันทีด้วยฟอร์แมตเดียวกับ OpenAI TTS API

การใช้ VibeVoice-ASR สำหรับการรู้จำคำพูด

ถอดความเบื้องต้น

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

เอาต์พุตที่มีโครงสร้าง

ASR ออกผลลัพธ์แบบ:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    ...
  ]
}

ASR เป็นเซิร์ฟเวอร์ MCP

pip install vibevoice-mcp-server
vibevoice-mcp serve

เชื่อมต่อกับ Claude Code, Cursor หรือ AI coding tools อื่น ๆ ได้โดยตรง

เมื่อใดควรใช้ VibeVoice-ASR เทียบกับ Whisper

กรณีใช้งาน	ตัวเลือกที่ดีที่สุด	เหตุผล
ประชุมยาว (30-60 นาที)	VibeVoice-ASR	ประมวลผล 60 นาที, ระบุผู้พูด
สัมภาษณ์หลายผู้พูด	VibeVoice-ASR	แยกผู้พูดอัตโนมัติ
พอดแคสต์ต้องการ timestamp	VibeVoice-ASR	เอาต์พุตโครงสร้าง ใคร/เมื่อ/อะไร
เนื้อหาหลายภาษา (50+ ภาษา)	VibeVoice-ASR	รองรับหลายภาษากว่า
คลิปสั้น/เสียงรบกวนมาก	Whisper	ทนเสียงรบกวนดีกว่า
ติดตั้ง edge/mobile	Whisper	ขนาดเล็ก รองรับอุปกรณ์หลากหลาย
ภาษาเฉพาะทาง (ไม่ใช่อังกฤษ)	Whisper	ปรับแต่งหลายภาษาได้ดีกว่า

การทดสอบ Voice AI API ด้วย Apidog

Apidog ช่วยทดสอบและ debug การรวม API Voice AI ได้อย่างรวดเร็ว ไม่ว่าจะเป็น FastAPI wrapper, Azure AI Foundry หรือ API ของคุณเอง

ทดสอบปลายทาง TTS

สร้าง POST request ใหม่ใน Apidog ไปยัง VibeVoice FastAPI server
ตั้งค่า body เป็น JSON:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

ตรวจสอบ header ตอบกลับ audio/wav
ดาวน์โหลดไฟล์ WAV และฟังเสียง

ทดสอบปลายทาง ASR

สร้าง POST request แบบ multipart/form-data
แนบไฟล์เสียงในฟิลด์ฟอร์ม
ตรวจสอบ JSON ตอบกลับว่ามี speaker ID, timestamp, transcription

ตรวจสอบสัญญา Audio API

Apidog รองรับทั้ง binary upload (ASR) และ JSON (TTS) สามารถ:

อัปโหลดไฟล์เสียง
จัดรูปแบบ JSON
ตรวจสอบ response โครงสร้าง
สลับ environment (local/cloud)

ดาวน์โหลด Apidog เพื่อทดสอบระบบ Voice AI ของคุณก่อน deploy จริง

ความปลอดภัยและการใช้งานอย่างรับผิดชอบ

มาตรการของ Microsoft:

คำเตือน AI ฝังในเสียง: “ส่วนนี้สร้างโดย AI”
ลายน้ำที่มองไม่เห็น: สำหรับตรวจสอบแหล่งที่มา
บันทึกการอนุมาน: hash log สำหรับตรวจจับ misuse
MIT License: ใช้เชิงพาณิชย์ได้ แต่ควรทดสอบก่อน production

สิ่งที่ได้รับอนุญาต

วิจัย/วิชาการ
สร้างต้นแบบ/ทดสอบในองค์กร
พอดแคสต์ (เปิดเผยว่าใช้ AI)
แอปเพื่อการเข้าถึง (TTS สำหรับผู้พิการ)

สิ่งที่ไม่ได้รับอนุญาต

แอบอ้างเสียงโดยไม่ยินยอม
Deepfake/นำเสนอเสียง AI เป็นของจริง
แปลงเสียงสดแบบเรียลไทม์ในแอป deepfake
สร้างเสียงที่ไม่ใช่ speech (เพลง, เอฟเฟกต์)

ข้อจำกัดที่ควรรู้

TTS ยังรองรับแค่ อังกฤษ/จีน ภาษาอื่นผลลัพธ์จะไม่ดี ASR รองรับ 50+ ภาษา
ASR ต้องใช้ VRAM 24GB+ (A100/H100) TTS ใช้ GPU ระดับ consumer ได้
TTS ไม่รองรับพูดทับกัน ทุกการพูดจะสลับกัน
โมเดลมี bias อาจมีเนื้อหาผิดพลาด/ลำเอียง
ซอฟต์แวร์ระดับวิจัย อาจมี bug/error ใน edge case

การติดตั้งใช้งาน VibeVoice-ASR บน Azure AI Foundry

ถ้าไม่ต้องการดูแล GPU เอง ใช้ VibeVoice-ASR บน Azure AI Foundry ได้ มี API endpoint ที่จัดการ scaling, update, maintenance ให้

ขั้นตอน:

ตรวจสอบ model catalog ของ Azure AI Foundry
กำหนดค่า endpoint/authorization ใน Apidog
ทดสอบ transcription กับไฟล์เสียงตัวอย่าง

ชุมชนและระบบนิเวศ

VibeVoice มี community ecosystem ที่แข็งแกร่ง:

ดาวน์โหลด HuggingFace 62,630+/เดือน สำหรับ 1.5B
12 โมเดล custom จากชุมชน
79+ HuggingFace Spaces
4 แบบ quantized สำหรับ VRAM ต่ำ
forks ชุมชน: vibevoice-community/VibeVoice

โปรเจกต์ชุมชนเด่น:

VibeVoice-FastAPI: REST API พร้อม Docker
VibeVoice MCP Server: เชื่อม coding AI tools
Apple Silicon support: สคริปต์ inference บน Mac M
Quantized models: GGUF ฯลฯ

คำถามที่พบบ่อย

VibeVoice ใช้งานฟรีหรือไม่?

ฟรี โมเดลทั้งหมด MIT license ใช้เชิงพาณิชย์ได้ (แต่ inference บน Azure AI Foundry มีค่าใช้จ่าย)

VibeVoice ใช้บน Apple Silicon Mac ได้ไหม?

มีสคริปต์ชุมชนสำหรับ inference บน Mac M-series ประสิทธิภาพช้ากว่า CUDA GPU แต่ใช้งานได้

VibeVoice เทียบกับ ElevenLabs ยังไง?

VibeVoice รันโลคอล ฟรี ไม่มีข้อมูลออกนอกเครื่อง ElevenLabs คุณภาพเสียงดีกว่า ตั้งค่าง่ายกว่า แต่ต้องจ่ายและข้อมูลออกคลาวด์

เหตุใด GitHub repo จึงถูกปิดชั่วคราว?

Microsoft พบ misuse (โคลนเสียง/สร้าง deepfake) จึงปิดชั่วคราว เพิ่มฟีเจอร์ความปลอดภัย แล้วเปิดใหม่ ชุมชน fork พัฒนาโค้ดต่อเนื่อง

ปรับแต่ง VibeVoice ด้วยเสียง custom ได้ไหม?

ได้ มีโมเดล custom 12 รูปแบบบน HuggingFace ต้องใช้ตัวอย่างเสียง 30–60 วินาที + GPU สำหรับเทรน

VibeVoice เอาต์พุตไฟล์เสียงแบบไหน?

WAV 24kHz โมโน แปลงเป็น MP3/OGG/FLAC ด้วย ffmpeg ได้

ใช้ VibeVoice-ASR แทน Whisper ได้ไหม?

สำหรับไฟล์ยาว/หลายผู้พูด/หลายภาษา VibeVoice-ASR ดีกว่า Whisper (Whisper เหมาะคลิปสั้น, เสียงรบกวน, ติดตั้ง edge/mobile)

VibeVoice รองรับสนทนาเสียงเรียลไทม์หรือไม่?

Realtime-0.5B รองรับ input streaming latency ~300ms เหมาะงาน quasi-realtime แต่ไม่ใช่ full-duplex voice chat

ดาวน์โหลด Apidog เพื่อทดสอบระบบ Voice AI ของคุณวันนี้