DEV Community

Cover image for Microsoft VibeVoice คืออะไร? วิธีใช้โมเดล AI เสียงโอเพนซอร์ส
Thanawat Wongchai
Thanawat Wongchai

Posted on • Originally published at apidog.com

Microsoft VibeVoice คืออะไร? วิธีใช้โมเดล AI เสียงโอเพนซอร์ส

สรุปย่อ

VibeVoice คือชุดโมเดล AI เสียงโอเพนซอร์สจาก Microsoft ประกอบด้วย 3 โมเดลหลัก: VibeVoice-1.5B สำหรับแปลงข้อความเป็นคำพูด (TTS), VibeVoice-Realtime-0.5B สำหรับ TTS แบบสตรีมมิ่ง, และ VibeVoice-ASR สำหรับรู้จำคำพูด (ASR) ทั้งหมดรันแบบโลคอล ติดตั้งใช้งานง่าย และมี API สำหรับการรวมเข้ากับระบบของคุณ คู่มือนี้สรุปวิธีติดตั้ง การเรียกใช้งานจริง และการทดสอบ API

ทดลองใช้ Apidog วันนี้

บทนำ

Microsoft ได้เปิดตัว VibeVoice ในปี 2026 เป็นเฟรมเวิร์ก AI เสียงโอเพนซอร์สที่รวมทั้งโมเดลสังเคราะห์เสียงและรู้จำเสียง สามารถรันบนเครื่องของคุณเองโดยไม่ต้องใช้คลาวด์

สถาปัตยกรรม VibeVoice

เฟรมเวิร์กนี้ประกอบด้วย:

  • VibeVoice-1.5B: สร้างเสียงสนทนาหลายผู้พูด มีอารมณ์ ครอบคลุมสูงสุด 90 นาที รองรับ 4 ผู้พูด
  • VibeVoice-Realtime-0.5B: TTS แบบสตรีมมิ่ง หน่วงต่ำมาก (300ms)
  • VibeVoice-ASR: ถอดความเสียงต่อเนื่องสูงสุด 60 นาที, รองรับ 50+ ภาษา, พร้อมระบุผู้พูด

ภาพรวม VibeVoice

หลังเปิดตัวมีการควบคุมการใช้โค้ดเพื่อป้องกัน deepfake โดยเสียงที่สร้างจะมีคำเตือนฝังในเสียง และลายน้ำที่ตรวจสอบได้ โมเดล ASR มีให้ใช้งานบน Azure AI Foundry ส่วน TTS ใช้ใบอนุญาต MIT เน้นงานวิจัย

คู่มือนี้จะสอนการติดตั้ง การสร้างเสียง การรู้จำเสียง การรวม API และการทดสอบปลายทางด้วย Apidog

VibeVoice ทำงานอย่างไร: ภาพรวมสถาปัตยกรรม

ความก้าวหน้าของ Tokenizer

จุดเด่นคือ Tokenizer เสียงต่อเนื่องที่ใช้ sampling rate ต่ำมาก 7.5 Hz (เมื่อเทียบกับ 50-100 Hz ของระบบทั่วไป) ทำให้จัดการเสียงยาว (90 นาที) ได้โดยไม่หมดบริบท

VibeVoice Acoustic Tokenizer
VibeVoice Architecture

ประกอบด้วย Tokenizer สองส่วน:

  • Acoustic Tokenizer: sigma-VAE, ลด sampling rate 3,200 เท่าจาก 24kHz
  • Semantic Tokenizer: โครงสร้างคล้ายกัน เน้นจับความหมายเชิงภาษา

การแพร่กระจายของโทเค็นถัดไป

โมเดลใช้ LLM (Qwen2.5-1.5B) ร่วมกับ Diffusion Head (123M พารามิเตอร์) โดย LLM จัดการบริบท ส่วน Head สร้างรายละเอียดเสียงด้วย DDPM

แนวทางการฝึกอบรม

ฝึกแบบ curriculum learning: เริ่มจากลำดับสั้น ขยายเป็น 4K, 16K, 32K, 64K token โดย tokenizer คงที่ อัปเดตเฉพาะ LLM และ Diffusion Head

ข้อมูลจำเพาะของโมเดล VibeVoice

โมเดล พารามิเตอร์ วัตถุประสงค์ ความยาวสูงสุด ภาษา ใบอนุญาต
VibeVoice-1.5B 3B ข้อความเป็นคำพูด 90 นาที อังกฤษ, จีน MIT
VibeVoice-Realtime-0.5B ~0.5B TTS แบบสตรีมมิ่ง ระยะยาว อังกฤษ, จีน MIT
VibeVoice-ASR ~9B การรู้จำคำพูด 60 นาที 50+ ภาษา MIT

VibeVoice-1.5B (TTS)

ข้อมูลจำเพาะ ค่า
LLM พื้นฐาน Qwen2.5-1.5B
ความยาวบริบท 64K โทเค็น
จำนวนผู้พูดสูงสุด 4 คน
เอาต์พุตเสียง 24kHz WAV โมโน
ประเภท Tensor BF16
รูปแบบ Safetensors

VibeVoice-ASR

ข้อมูลจำเพาะ ค่า
สถาปัตยกรรมพื้นฐาน Qwen2.5
พารามิเตอร์ ~9B
ประมวลผลเสียงสูงสุด 60 นาที
อัตราเฟรม 7.5 Hz
WER เฉลี่ย 7.77%
ภาษา 50+
เอาต์พุต โครงสร้าง (ใคร/เมื่อไหร่/อะไร)
รองรับไฟล์เสียง WAV, FLAC, MP3 16kHz+

การติดตั้งและตั้งค่า

ข้อกำหนดเบื้องต้น

  • Python 3.8+
  • NVIDIA GPU รองรับ CUDA
  • VRAM 7-8 GB สำหรับ TTS, 24 GB+ สำหรับ ASR
  • RAM 32 GB (64 GB แนะนำสำหรับ ASR)
  • CUDA 11.8+ (แนะนำ 12.0+)

ติดตั้ง VibeVoice TTS

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements.txt
Enter fullscreen mode Exit fullscreen mode

โมเดลจะดาวน์โหลดอัตโนมัติเมื่อรันครั้งแรก หรือดาวน์โหลดล่วงหน้าด้วย:

from huggingface_hub import snapshot_download

snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)
Enter fullscreen mode Exit fullscreen mode

ติดตั้งผ่าน pip (แพ็คเกจชุมชน)

pip install vibevoice
Enter fullscreen mode Exit fullscreen mode

ติดตั้งสำหรับ ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Enter fullscreen mode Exit fullscreen mode

หรือใช้บน Azure AI Foundry สำหรับ inference คลาวด์

การสร้างเสียงพูดด้วย VibeVoice-1.5B

สร้างเสียงพูดจากผู้พูดคนเดียว

เตรียมไฟล์ข้อความ:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
Enter fullscreen mode Exit fullscreen mode

รันคำสั่ง:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

เอาต์พุตจะได้ไฟล์ .wav ในโฟลเดอร์ outputs/

สร้างพอดแคสต์หลายผู้พูด

รองรับสูงสุด 4 ผู้พูด:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
...
Enter fullscreen mode Exit fullscreen mode
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

การโคลนเสียง (Zero-shot)

ไฟล์อ้างอิง:

  • .wav (โมโน), 24kHz, 30–60 วินาที

แปลงไฟล์:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Enter fullscreen mode Exit fullscreen mode

เปิด Gradio demo UI:

python demo/gradio_demo.py
Enter fullscreen mode Exit fullscreen mode

แล้วอัปโหลดเสียง/โคลนเสียงที่ UI: http://127.0.0.1:7860

สตรีมด้วย VibeVoice-Realtime-0.5B

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice
Enter fullscreen mode Exit fullscreen mode

Realtime เหมาะกับงานโต้ตอบสด, ความเที่ยงตรงน้อยกว่า 1.5B แต่เร็วกว่า

การใช้ VibeVoice กับ Python

Pipeline API

from transformers import pipeline
from huggingface_hub import snapshot_download

model_path = snapshot_download("microsoft/VibeVoice-1.5B")

pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

input_data = pipe.processor.apply_chat_template(script)

generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)
Enter fullscreen mode Exit fullscreen mode

FastAPI wrapper สำหรับการใช้งานจริง

มี FastAPI wrapper ให้เรียกใช้งาน API แบบ OpenAI-compatible:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Enter fullscreen mode Exit fullscreen mode

ทดสอบ API:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav
Enter fullscreen mode Exit fullscreen mode

API นี้สามารถทดสอบผ่าน Apidog ได้ทันทีด้วยฟอร์แมตเดียวกับ OpenAI TTS API

การใช้ VibeVoice-ASR สำหรับการรู้จำคำพูด

ถอดความเบื้องต้น

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav
Enter fullscreen mode Exit fullscreen mode

เอาต์พุตที่มีโครงสร้าง

ASR ออกผลลัพธ์แบบ:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    ...
  ]
}
Enter fullscreen mode Exit fullscreen mode

ASR เป็นเซิร์ฟเวอร์ MCP

pip install vibevoice-mcp-server
vibevoice-mcp serve
Enter fullscreen mode Exit fullscreen mode

เชื่อมต่อกับ Claude Code, Cursor หรือ AI coding tools อื่น ๆ ได้โดยตรง

เมื่อใดควรใช้ VibeVoice-ASR เทียบกับ Whisper

กรณีใช้งาน ตัวเลือกที่ดีที่สุด เหตุผล
ประชุมยาว (30-60 นาที) VibeVoice-ASR ประมวลผล 60 นาที, ระบุผู้พูด
สัมภาษณ์หลายผู้พูด VibeVoice-ASR แยกผู้พูดอัตโนมัติ
พอดแคสต์ต้องการ timestamp VibeVoice-ASR เอาต์พุตโครงสร้าง ใคร/เมื่อ/อะไร
เนื้อหาหลายภาษา (50+ ภาษา) VibeVoice-ASR รองรับหลายภาษากว่า
คลิปสั้น/เสียงรบกวนมาก Whisper ทนเสียงรบกวนดีกว่า
ติดตั้ง edge/mobile Whisper ขนาดเล็ก รองรับอุปกรณ์หลากหลาย
ภาษาเฉพาะทาง (ไม่ใช่อังกฤษ) Whisper ปรับแต่งหลายภาษาได้ดีกว่า

การทดสอบ Voice AI API ด้วย Apidog

Apidog ช่วยทดสอบและ debug การรวม API Voice AI ได้อย่างรวดเร็ว ไม่ว่าจะเป็น FastAPI wrapper, Azure AI Foundry หรือ API ของคุณเอง

ทดสอบ Voice AI API ด้วย Apidog

ทดสอบปลายทาง TTS

  1. สร้าง POST request ใหม่ใน Apidog ไปยัง VibeVoice FastAPI server
  2. ตั้งค่า body เป็น JSON:
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}
Enter fullscreen mode Exit fullscreen mode
  1. ตรวจสอบ header ตอบกลับ audio/wav
  2. ดาวน์โหลดไฟล์ WAV และฟังเสียง

ทดสอบปลายทาง ASR

  1. สร้าง POST request แบบ multipart/form-data
  2. แนบไฟล์เสียงในฟิลด์ฟอร์ม
  3. ตรวจสอบ JSON ตอบกลับว่ามี speaker ID, timestamp, transcription

ตรวจสอบสัญญา Audio API

Apidog รองรับทั้ง binary upload (ASR) และ JSON (TTS) สามารถ:

  • อัปโหลดไฟล์เสียง
  • จัดรูปแบบ JSON
  • ตรวจสอบ response โครงสร้าง
  • สลับ environment (local/cloud)

ดาวน์โหลด Apidog เพื่อทดสอบระบบ Voice AI ของคุณก่อน deploy จริง

ความปลอดภัยและการใช้งานอย่างรับผิดชอบ

มาตรการของ Microsoft:

  • คำเตือน AI ฝังในเสียง: “ส่วนนี้สร้างโดย AI”
  • ลายน้ำที่มองไม่เห็น: สำหรับตรวจสอบแหล่งที่มา
  • บันทึกการอนุมาน: hash log สำหรับตรวจจับ misuse
  • MIT License: ใช้เชิงพาณิชย์ได้ แต่ควรทดสอบก่อน production

สิ่งที่ได้รับอนุญาต

  • วิจัย/วิชาการ
  • สร้างต้นแบบ/ทดสอบในองค์กร
  • พอดแคสต์ (เปิดเผยว่าใช้ AI)
  • แอปเพื่อการเข้าถึง (TTS สำหรับผู้พิการ)

สิ่งที่ไม่ได้รับอนุญาต

  • แอบอ้างเสียงโดยไม่ยินยอม
  • Deepfake/นำเสนอเสียง AI เป็นของจริง
  • แปลงเสียงสดแบบเรียลไทม์ในแอป deepfake
  • สร้างเสียงที่ไม่ใช่ speech (เพลง, เอฟเฟกต์)

ข้อจำกัดที่ควรรู้

  • TTS ยังรองรับแค่ อังกฤษ/จีน ภาษาอื่นผลลัพธ์จะไม่ดี ASR รองรับ 50+ ภาษา
  • ASR ต้องใช้ VRAM 24GB+ (A100/H100) TTS ใช้ GPU ระดับ consumer ได้
  • TTS ไม่รองรับพูดทับกัน ทุกการพูดจะสลับกัน
  • โมเดลมี bias อาจมีเนื้อหาผิดพลาด/ลำเอียง
  • ซอฟต์แวร์ระดับวิจัย อาจมี bug/error ใน edge case

ข้อจำกัด VibeVoice

การติดตั้งใช้งาน VibeVoice-ASR บน Azure AI Foundry

ถ้าไม่ต้องการดูแล GPU เอง ใช้ VibeVoice-ASR บน Azure AI Foundry ได้ มี API endpoint ที่จัดการ scaling, update, maintenance ให้

ขั้นตอน:

  • ตรวจสอบ model catalog ของ Azure AI Foundry
  • กำหนดค่า endpoint/authorization ใน Apidog
  • ทดสอบ transcription กับไฟล์เสียงตัวอย่าง

ชุมชนและระบบนิเวศ

VibeVoice มี community ecosystem ที่แข็งแกร่ง:

  • ดาวน์โหลด HuggingFace 62,630+/เดือน สำหรับ 1.5B
  • 12 โมเดล custom จากชุมชน
  • 79+ HuggingFace Spaces
  • 4 แบบ quantized สำหรับ VRAM ต่ำ
  • forks ชุมชน: vibevoice-community/VibeVoice

โปรเจกต์ชุมชนเด่น:

  • VibeVoice-FastAPI: REST API พร้อม Docker
  • VibeVoice MCP Server: เชื่อม coding AI tools
  • Apple Silicon support: สคริปต์ inference บน Mac M
  • Quantized models: GGUF ฯลฯ

คำถามที่พบบ่อย

VibeVoice ใช้งานฟรีหรือไม่?

ฟรี โมเดลทั้งหมด MIT license ใช้เชิงพาณิชย์ได้ (แต่ inference บน Azure AI Foundry มีค่าใช้จ่าย)

VibeVoice ใช้บน Apple Silicon Mac ได้ไหม?

มีสคริปต์ชุมชนสำหรับ inference บน Mac M-series ประสิทธิภาพช้ากว่า CUDA GPU แต่ใช้งานได้

VibeVoice เทียบกับ ElevenLabs ยังไง?

VibeVoice รันโลคอล ฟรี ไม่มีข้อมูลออกนอกเครื่อง ElevenLabs คุณภาพเสียงดีกว่า ตั้งค่าง่ายกว่า แต่ต้องจ่ายและข้อมูลออกคลาวด์

เหตุใด GitHub repo จึงถูกปิดชั่วคราว?

Microsoft พบ misuse (โคลนเสียง/สร้าง deepfake) จึงปิดชั่วคราว เพิ่มฟีเจอร์ความปลอดภัย แล้วเปิดใหม่ ชุมชน fork พัฒนาโค้ดต่อเนื่อง

ปรับแต่ง VibeVoice ด้วยเสียง custom ได้ไหม?

ได้ มีโมเดล custom 12 รูปแบบบน HuggingFace ต้องใช้ตัวอย่างเสียง 30–60 วินาที + GPU สำหรับเทรน

VibeVoice เอาต์พุตไฟล์เสียงแบบไหน?

WAV 24kHz โมโน แปลงเป็น MP3/OGG/FLAC ด้วย ffmpeg ได้

ใช้ VibeVoice-ASR แทน Whisper ได้ไหม?

สำหรับไฟล์ยาว/หลายผู้พูด/หลายภาษา VibeVoice-ASR ดีกว่า Whisper (Whisper เหมาะคลิปสั้น, เสียงรบกวน, ติดตั้ง edge/mobile)

VibeVoice รองรับสนทนาเสียงเรียลไทม์หรือไม่?

Realtime-0.5B รองรับ input streaming latency ~300ms เหมาะงาน quasi-realtime แต่ไม่ใช่ full-duplex voice chat


ดาวน์โหลด Apidog เพื่อทดสอบระบบ Voice AI ของคุณวันนี้

Top comments (0)