สรุปย่อ
VibeVoice คือชุดโมเดล AI เสียงโอเพนซอร์สจาก Microsoft ประกอบด้วย 3 โมเดลหลัก: VibeVoice-1.5B สำหรับแปลงข้อความเป็นคำพูด (TTS), VibeVoice-Realtime-0.5B สำหรับ TTS แบบสตรีมมิ่ง, และ VibeVoice-ASR สำหรับรู้จำคำพูด (ASR) ทั้งหมดรันแบบโลคอล ติดตั้งใช้งานง่าย และมี API สำหรับการรวมเข้ากับระบบของคุณ คู่มือนี้สรุปวิธีติดตั้ง การเรียกใช้งานจริง และการทดสอบ API
บทนำ
Microsoft ได้เปิดตัว VibeVoice ในปี 2026 เป็นเฟรมเวิร์ก AI เสียงโอเพนซอร์สที่รวมทั้งโมเดลสังเคราะห์เสียงและรู้จำเสียง สามารถรันบนเครื่องของคุณเองโดยไม่ต้องใช้คลาวด์
เฟรมเวิร์กนี้ประกอบด้วย:
- VibeVoice-1.5B: สร้างเสียงสนทนาหลายผู้พูด มีอารมณ์ ครอบคลุมสูงสุด 90 นาที รองรับ 4 ผู้พูด
- VibeVoice-Realtime-0.5B: TTS แบบสตรีมมิ่ง หน่วงต่ำมาก (300ms)
- VibeVoice-ASR: ถอดความเสียงต่อเนื่องสูงสุด 60 นาที, รองรับ 50+ ภาษา, พร้อมระบุผู้พูด
หลังเปิดตัวมีการควบคุมการใช้โค้ดเพื่อป้องกัน deepfake โดยเสียงที่สร้างจะมีคำเตือนฝังในเสียง และลายน้ำที่ตรวจสอบได้ โมเดล ASR มีให้ใช้งานบน Azure AI Foundry ส่วน TTS ใช้ใบอนุญาต MIT เน้นงานวิจัย
คู่มือนี้จะสอนการติดตั้ง การสร้างเสียง การรู้จำเสียง การรวม API และการทดสอบปลายทางด้วย Apidog
VibeVoice ทำงานอย่างไร: ภาพรวมสถาปัตยกรรม
ความก้าวหน้าของ Tokenizer
จุดเด่นคือ Tokenizer เสียงต่อเนื่องที่ใช้ sampling rate ต่ำมาก 7.5 Hz (เมื่อเทียบกับ 50-100 Hz ของระบบทั่วไป) ทำให้จัดการเสียงยาว (90 นาที) ได้โดยไม่หมดบริบท
ประกอบด้วย Tokenizer สองส่วน:
- Acoustic Tokenizer: sigma-VAE, ลด sampling rate 3,200 เท่าจาก 24kHz
- Semantic Tokenizer: โครงสร้างคล้ายกัน เน้นจับความหมายเชิงภาษา
การแพร่กระจายของโทเค็นถัดไป
โมเดลใช้ LLM (Qwen2.5-1.5B) ร่วมกับ Diffusion Head (123M พารามิเตอร์) โดย LLM จัดการบริบท ส่วน Head สร้างรายละเอียดเสียงด้วย DDPM
แนวทางการฝึกอบรม
ฝึกแบบ curriculum learning: เริ่มจากลำดับสั้น ขยายเป็น 4K, 16K, 32K, 64K token โดย tokenizer คงที่ อัปเดตเฉพาะ LLM และ Diffusion Head
ข้อมูลจำเพาะของโมเดล VibeVoice
| โมเดล | พารามิเตอร์ | วัตถุประสงค์ | ความยาวสูงสุด | ภาษา | ใบอนุญาต |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B | ข้อความเป็นคำพูด | 90 นาที | อังกฤษ, จีน | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS แบบสตรีมมิ่ง | ระยะยาว | อังกฤษ, จีน | MIT |
| VibeVoice-ASR | ~9B | การรู้จำคำพูด | 60 นาที | 50+ ภาษา | MIT |
VibeVoice-1.5B (TTS)
| ข้อมูลจำเพาะ | ค่า |
|---|---|
| LLM พื้นฐาน | Qwen2.5-1.5B |
| ความยาวบริบท | 64K โทเค็น |
| จำนวนผู้พูดสูงสุด | 4 คน |
| เอาต์พุตเสียง | 24kHz WAV โมโน |
| ประเภท Tensor | BF16 |
| รูปแบบ | Safetensors |
VibeVoice-ASR
| ข้อมูลจำเพาะ | ค่า |
|---|---|
| สถาปัตยกรรมพื้นฐาน | Qwen2.5 |
| พารามิเตอร์ | ~9B |
| ประมวลผลเสียงสูงสุด | 60 นาที |
| อัตราเฟรม | 7.5 Hz |
| WER เฉลี่ย | 7.77% |
| ภาษา | 50+ |
| เอาต์พุต | โครงสร้าง (ใคร/เมื่อไหร่/อะไร) |
| รองรับไฟล์เสียง | WAV, FLAC, MP3 16kHz+ |
การติดตั้งและตั้งค่า
ข้อกำหนดเบื้องต้น
- Python 3.8+
- NVIDIA GPU รองรับ CUDA
- VRAM 7-8 GB สำหรับ TTS, 24 GB+ สำหรับ ASR
- RAM 32 GB (64 GB แนะนำสำหรับ ASR)
- CUDA 11.8+ (แนะนำ 12.0+)
ติดตั้ง VibeVoice TTS
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements.txt
โมเดลจะดาวน์โหลดอัตโนมัติเมื่อรันครั้งแรก หรือดาวน์โหลดล่วงหน้าด้วย:
from huggingface_hub import snapshot_download
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
ติดตั้งผ่าน pip (แพ็คเกจชุมชน)
pip install vibevoice
ติดตั้งสำหรับ ASR
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
หรือใช้บน Azure AI Foundry สำหรับ inference คลาวด์
การสร้างเสียงพูดด้วย VibeVoice-1.5B
สร้างเสียงพูดจากผู้พูดคนเดียว
เตรียมไฟล์ข้อความ:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
รันคำสั่ง:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
เอาต์พุตจะได้ไฟล์ .wav ในโฟลเดอร์ outputs/
สร้างพอดแคสต์หลายผู้พูด
รองรับสูงสุด 4 ผู้พูด:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
...
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
การโคลนเสียง (Zero-shot)
ไฟล์อ้างอิง:
- .wav (โมโน), 24kHz, 30–60 วินาที
แปลงไฟล์:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
เปิด Gradio demo UI:
python demo/gradio_demo.py
แล้วอัปโหลดเสียง/โคลนเสียงที่ UI: http://127.0.0.1:7860
สตรีมด้วย VibeVoice-Realtime-0.5B
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Realtime เหมาะกับงานโต้ตอบสด, ความเที่ยงตรงน้อยกว่า 1.5B แต่เร็วกว่า
การใช้ VibeVoice กับ Python
Pipeline API
from transformers import pipeline
from huggingface_hub import snapshot_download
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
FastAPI wrapper สำหรับการใช้งานจริง
มี FastAPI wrapper ให้เรียกใช้งาน API แบบ OpenAI-compatible:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
ทดสอบ API:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
API นี้สามารถทดสอบผ่าน Apidog ได้ทันทีด้วยฟอร์แมตเดียวกับ OpenAI TTS API
การใช้ VibeVoice-ASR สำหรับการรู้จำคำพูด
ถอดความเบื้องต้น
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
เอาต์พุตที่มีโครงสร้าง
ASR ออกผลลัพธ์แบบ:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
...
]
}
ASR เป็นเซิร์ฟเวอร์ MCP
pip install vibevoice-mcp-server
vibevoice-mcp serve
เชื่อมต่อกับ Claude Code, Cursor หรือ AI coding tools อื่น ๆ ได้โดยตรง
เมื่อใดควรใช้ VibeVoice-ASR เทียบกับ Whisper
| กรณีใช้งาน | ตัวเลือกที่ดีที่สุด | เหตุผล |
|---|---|---|
| ประชุมยาว (30-60 นาที) | VibeVoice-ASR | ประมวลผล 60 นาที, ระบุผู้พูด |
| สัมภาษณ์หลายผู้พูด | VibeVoice-ASR | แยกผู้พูดอัตโนมัติ |
| พอดแคสต์ต้องการ timestamp | VibeVoice-ASR | เอาต์พุตโครงสร้าง ใคร/เมื่อ/อะไร |
| เนื้อหาหลายภาษา (50+ ภาษา) | VibeVoice-ASR | รองรับหลายภาษากว่า |
| คลิปสั้น/เสียงรบกวนมาก | Whisper | ทนเสียงรบกวนดีกว่า |
| ติดตั้ง edge/mobile | Whisper | ขนาดเล็ก รองรับอุปกรณ์หลากหลาย |
| ภาษาเฉพาะทาง (ไม่ใช่อังกฤษ) | Whisper | ปรับแต่งหลายภาษาได้ดีกว่า |
การทดสอบ Voice AI API ด้วย Apidog
Apidog ช่วยทดสอบและ debug การรวม API Voice AI ได้อย่างรวดเร็ว ไม่ว่าจะเป็น FastAPI wrapper, Azure AI Foundry หรือ API ของคุณเอง
ทดสอบปลายทาง TTS
- สร้าง POST request ใหม่ใน Apidog ไปยัง VibeVoice FastAPI server
- ตั้งค่า body เป็น JSON:
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice",
"response_format": "wav"
}
- ตรวจสอบ header ตอบกลับ
audio/wav - ดาวน์โหลดไฟล์ WAV และฟังเสียง
ทดสอบปลายทาง ASR
- สร้าง POST request แบบ
multipart/form-data - แนบไฟล์เสียงในฟิลด์ฟอร์ม
- ตรวจสอบ JSON ตอบกลับว่ามี speaker ID, timestamp, transcription
ตรวจสอบสัญญา Audio API
Apidog รองรับทั้ง binary upload (ASR) และ JSON (TTS) สามารถ:
- อัปโหลดไฟล์เสียง
- จัดรูปแบบ JSON
- ตรวจสอบ response โครงสร้าง
- สลับ environment (local/cloud)
ดาวน์โหลด Apidog เพื่อทดสอบระบบ Voice AI ของคุณก่อน deploy จริง
ความปลอดภัยและการใช้งานอย่างรับผิดชอบ
มาตรการของ Microsoft:
- คำเตือน AI ฝังในเสียง: “ส่วนนี้สร้างโดย AI”
- ลายน้ำที่มองไม่เห็น: สำหรับตรวจสอบแหล่งที่มา
- บันทึกการอนุมาน: hash log สำหรับตรวจจับ misuse
- MIT License: ใช้เชิงพาณิชย์ได้ แต่ควรทดสอบก่อน production
สิ่งที่ได้รับอนุญาต
- วิจัย/วิชาการ
- สร้างต้นแบบ/ทดสอบในองค์กร
- พอดแคสต์ (เปิดเผยว่าใช้ AI)
- แอปเพื่อการเข้าถึง (TTS สำหรับผู้พิการ)
สิ่งที่ไม่ได้รับอนุญาต
- แอบอ้างเสียงโดยไม่ยินยอม
- Deepfake/นำเสนอเสียง AI เป็นของจริง
- แปลงเสียงสดแบบเรียลไทม์ในแอป deepfake
- สร้างเสียงที่ไม่ใช่ speech (เพลง, เอฟเฟกต์)
ข้อจำกัดที่ควรรู้
- TTS ยังรองรับแค่ อังกฤษ/จีน ภาษาอื่นผลลัพธ์จะไม่ดี ASR รองรับ 50+ ภาษา
- ASR ต้องใช้ VRAM 24GB+ (A100/H100) TTS ใช้ GPU ระดับ consumer ได้
- TTS ไม่รองรับพูดทับกัน ทุกการพูดจะสลับกัน
- โมเดลมี bias อาจมีเนื้อหาผิดพลาด/ลำเอียง
- ซอฟต์แวร์ระดับวิจัย อาจมี bug/error ใน edge case
การติดตั้งใช้งาน VibeVoice-ASR บน Azure AI Foundry
ถ้าไม่ต้องการดูแล GPU เอง ใช้ VibeVoice-ASR บน Azure AI Foundry ได้ มี API endpoint ที่จัดการ scaling, update, maintenance ให้
ขั้นตอน:
- ตรวจสอบ model catalog ของ Azure AI Foundry
- กำหนดค่า endpoint/authorization ใน Apidog
- ทดสอบ transcription กับไฟล์เสียงตัวอย่าง
ชุมชนและระบบนิเวศ
VibeVoice มี community ecosystem ที่แข็งแกร่ง:
- ดาวน์โหลด HuggingFace 62,630+/เดือน สำหรับ 1.5B
- 12 โมเดล custom จากชุมชน
- 79+ HuggingFace Spaces
- 4 แบบ quantized สำหรับ VRAM ต่ำ
-
forks ชุมชน:
vibevoice-community/VibeVoice
โปรเจกต์ชุมชนเด่น:
- VibeVoice-FastAPI: REST API พร้อม Docker
- VibeVoice MCP Server: เชื่อม coding AI tools
- Apple Silicon support: สคริปต์ inference บน Mac M
- Quantized models: GGUF ฯลฯ
คำถามที่พบบ่อย
VibeVoice ใช้งานฟรีหรือไม่?
ฟรี โมเดลทั้งหมด MIT license ใช้เชิงพาณิชย์ได้ (แต่ inference บน Azure AI Foundry มีค่าใช้จ่าย)
VibeVoice ใช้บน Apple Silicon Mac ได้ไหม?
มีสคริปต์ชุมชนสำหรับ inference บน Mac M-series ประสิทธิภาพช้ากว่า CUDA GPU แต่ใช้งานได้
VibeVoice เทียบกับ ElevenLabs ยังไง?
VibeVoice รันโลคอล ฟรี ไม่มีข้อมูลออกนอกเครื่อง ElevenLabs คุณภาพเสียงดีกว่า ตั้งค่าง่ายกว่า แต่ต้องจ่ายและข้อมูลออกคลาวด์
เหตุใด GitHub repo จึงถูกปิดชั่วคราว?
Microsoft พบ misuse (โคลนเสียง/สร้าง deepfake) จึงปิดชั่วคราว เพิ่มฟีเจอร์ความปลอดภัย แล้วเปิดใหม่ ชุมชน fork พัฒนาโค้ดต่อเนื่อง
ปรับแต่ง VibeVoice ด้วยเสียง custom ได้ไหม?
ได้ มีโมเดล custom 12 รูปแบบบน HuggingFace ต้องใช้ตัวอย่างเสียง 30–60 วินาที + GPU สำหรับเทรน
VibeVoice เอาต์พุตไฟล์เสียงแบบไหน?
WAV 24kHz โมโน แปลงเป็น MP3/OGG/FLAC ด้วย ffmpeg ได้
ใช้ VibeVoice-ASR แทน Whisper ได้ไหม?
สำหรับไฟล์ยาว/หลายผู้พูด/หลายภาษา VibeVoice-ASR ดีกว่า Whisper (Whisper เหมาะคลิปสั้น, เสียงรบกวน, ติดตั้ง edge/mobile)
VibeVoice รองรับสนทนาเสียงเรียลไทม์หรือไม่?
Realtime-0.5B รองรับ input streaming latency ~300ms เหมาะงาน quasi-realtime แต่ไม่ใช่ full-duplex voice chat
ดาวน์โหลด Apidog เพื่อทดสอบระบบ Voice AI ของคุณวันนี้






Top comments (0)