요약 (TL;DR)
VibeVoice는 Microsoft가 오픈 소스로 제공하는 음성 AI 제품군입니다. 세 가지 모델이 포함되며, 텍스트 음성 변환(VibeVoice-1.5B, 최대 90분, 4명 화자), 스트리밍 TTS(VibeVoice-Realtime-0.5B), 음성 인식(VibeVoice-ASR, 60분 오디오, 50개+ 언어, 7.77% WER)을 모두 로컬에서 실행할 수 있습니다. 모든 모델은 MIT 라이선스를 따릅니다. 이 가이드에서는 설치, 사용법, API 통합에 초점을 맞추어 빠르게 적용할 수 있도록 설명합니다.
소개
Microsoft의 VibeVoice는 2026년 초 오픈 소스 음성 AI 프레임워크로 공개되었습니다. 텍스트 음성 변환(TTS)과 자동 음성 인식(ASR) 모델이 모두 포함되어 있으며, 클라우드 없이 로컬 하드웨어에서 바로 실행할 수 있습니다.
프레임워크의 모델 구성은 아래와 같습니다.
- VibeVoice-1.5B: 최대 90분, 4명 화자로 다중 대화 오디오 합성
- VibeVoice-Realtime-0.5B: 약 300ms 지연의 경량 스트리밍 TTS
- VibeVoice-ASR: 60분 오디오, 50개+ 언어, 화자 식별과 타임스탬프 포함 구조화된 음성 인식
TTS 모델은 보안 논란 후 일시적으로 저장소가 비활성화되었으나, 커뮤니티 포크와 함께 Microsoft가 워터마크·AI 고지 등 안전장치를 추가하여 다시 활성화되었습니다.
VibeVoice-ASR은 Azure AI Foundry를 통한 클라우드 배포도 지원합니다. TTS 모델은 연구 목적의 MIT 라이선스로 제공됩니다.
이 가이드에서는 설치, 텍스트 음성 변환, 음성 인식, API 통합, 그리고 Apidog로 음성 AI 엔드포인트를 테스트하는 실제적인 방법을 다룹니다.
VibeVoice 작동 방식: 아키텍처 개요
토크나이저의 혁신
VibeVoice는 7.5 Hz 초저 프레임 속도의 연속 음성 토크나이저를 도입했습니다. 기존 모델이 50-100 Hz로 처리하는 데 반해, 이 방식은 90분짜리 긴 오디오도 컨텍스트를 잃지 않고 처리할 수 있습니다.
토크나이저는 다음 두 가지가 있습니다.
- 음향 토크나이저: 3.4억 파라미터, 시그마-VAE 변형, 24kHz 입력 오디오를 3,200배 다운샘플링
- 의미 토크나이저: 언어적 의미 포착, ASR 프록시 태스크로 훈련
Next-token diffusion
LLM 백본(Qwen2.5-1.5B)과 1.23억 파라미터의 경량 확산 헤드를 조합합니다. LLM은 텍스트 컨텍스트, 확산 헤드는 DDPM 기반으로 고충실도 음향 세부 정보를 생성합니다.
총 파라미터: 30억 (토크나이저 및 확산 헤드 포함)
커리큘럼 학습
4K→16K→32K→64K 토큰 등 점진적으로 시퀀스 길이를 늘리며 커리큘럼 학습을 적용합니다. 이때 토크나이저는 고정, LLM/확산 헤드만 업데이트하여 모델이 장기 시퀀스 처리 능력을 잃지 않도록 합니다.
VibeVoice 모델 사양
| 모델 | 파라미터 | 용도 | 최대 길이 | 언어 | 라이선스 |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 30억 (총) | 텍스트 음성 변환 | 90분 | 영어, 중국어 | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | 스트리밍 TTS | 장문 | 영어, 중국어 | MIT |
| VibeVoice-ASR | ~9B | 음성 인식 | 60분 | 50+개 언어 | MIT |
VibeVoice-1.5B (TTS)
| 사양 | 값 |
|---|---|
| LLM 기반 | Qwen2.5-1.5B |
| 컨텍스트 길이 | 64K 토큰 |
| 최대 화자 수 | 4명 동시 |
| 오디오 출력 | 24kHz WAV 모노 |
| 텐서 유형 | BF16 |
| 형식 | Safetensors |
| HuggingFace 다운로드 | 월 62,630회 |
| 커뮤니티 포크 | 12개 미세 조정 변형 |
VibeVoice-ASR
| 사양 | 값 |
|---|---|
| 아키텍처 기반 | Qwen2.5 |
| 파라미터 | ~9B |
| 오디오 처리 | 단일 패스에서 최대 60분 |
| 프레임 속도 | 7.5 Hz |
| 평균 WER | 7.77% (8개 영어 데이터셋) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| 언어 | 50+개 |
| 출력 | 구조화 (누가+언제+무엇을) |
| 지원 오디오 | 16kHz+ WAV, FLAC, MP3 |
설치 및 설정
선행 조건
- Python 3.8 이상
- CUDA 지원 NVIDIA GPU
- TTS 모델: 최소 7-8GB VRAM
- ASR 모델: 최소 24GB VRAM (A100/H100 권장)
- 최소 32GB RAM (ASR는 64GB 권장)
- CUDA 11.8 이상 (12.0+ 권장)
VibeVoice TTS 설치
# 저장소 클론
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# 의존성 설치
pip install -r requirements.txt
최초 실행 시 모델이 HuggingFace에서 자동 다운로드됩니다. 사전 다운로드하려면:
from huggingface_hub import snapshot_download
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
pip 설치 (커뮤니티 패키지)
pip install vibevoice
ASR용 설치
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
클라우드 추론은 Azure AI Foundry를 통해 배포할 수 있습니다.
VibeVoice-1.5B로 음성 생성
단일 화자 TTS 생성
텍스트 스크립트 파일 작성:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
추론 실행:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
outputs/에 .wav 파일이 생성됩니다.
다중 화자 팟캐스트 생성
최대 4명 화자, 90분 대화 지원. 예시 스크립트:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
실행:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
음성 복제 (제로샷)
오디오 요구사항:
- WAV(모노), 24,000Hz, 30-60초 명확한 음성
변환 예시:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Gradio 데모 실행:
python demo/gradio_demo.py
http://127.0.0.1:7860 접속 후 참조 오디오 업로드 → 화자 선택 → 음성 생성.
VibeVoice-Realtime-0.5B로 스트리밍
300ms 지연의 실시간 TTS:
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
인터랙티브 앱에는 Realtime 모델, 사전 생성 콘텐츠에는 1.5B 모델을 추천.
Python에서 VibeVoice 사용
파이프라인 API
from transformers import pipeline
from huggingface_hub import snapshot_download
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
프로덕션용 FastAPI 래퍼
커뮤니티 FastAPI 래퍼를 활용해 OpenAI 호환 API로 배포:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
API 예시 호출:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
OpenAI 형식 그대로 Apidog에서 엔드포인트 가져오기, 요청 본문 구성, 바로 음성 생성 테스트가 가능합니다.
VibeVoice-ASR을 이용한 음성 인식
기본 전사
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
구조화된 출력 예시
VibeVoice-ASR은 "누가/언제/무엇을" 구조로 결과를 반환합니다.
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
MCP 서버로서의 ASR
직접 MCP 서버로 실행하여 Claude Code, Cursor 등과 통합:
pip install vibevoice-mcp-server
vibevoice-mcp serve
VibeVoice-ASR vs Whisper
| 사용 사례 | 최고의 선택 | 이유 |
|---|---|---|
| 긴 회의(30-60분) | VibeVoice-ASR | 단일 패스, 화자 ID, 대용량 지원 |
| 여러 화자 인터뷰 | VibeVoice-ASR | 내장 화자 분리 |
| 타임스탬프가 필요한 팟캐스트 | VibeVoice-ASR | 구조화된 출력 |
| 다국어 콘텐츠(50개+ 언어) | VibeVoice-ASR | 더 넓은 언어 지원 |
| 시끄러운 짧은 클립 | Whisper | 노이즈 견고성 |
| 에지/모바일 배포 | Whisper | 작은 모델, 장치 호환성 |
| 비영어 특화 | Whisper | 성숙한 미세 조정 |
Apidog로 음성 AI API 테스트하기
VibeVoice FastAPI 래퍼, Azure AI Foundry 엔드포인트, 커스텀 음성 AI API 모두 Apidog로 쉽게 테스트할 수 있습니다.
TTS 엔드포인트 테스트
- Apidog에서 FastAPI 서버 엔드포인트로 POST 요청 생성
-
본문 예시(OpenAI 호환):
{ "model": "vibevoice-1.5b", "input": "Test speech synthesis with proper intonation and pacing.", "voice": "alice", "response_format": "wav" } audio/wav응답 헤더 확인응답을 WAV 파일로 저장 후 오디오 품질 확인
ASR 엔드포인트 테스트
-
multipart/form-data로 POST 요청 생성 - 오디오 파일 첨부
- 응답 JSON에 화자 ID, 타임스탬프, 전사 텍스트 포함 여부 확인
오디오 API 계약 유효성 검사
- ASR: 바이너리 파일 업로드
- TTS: JSON 본문 작성
- 전사 구조 응답 검증
- 환경 변수로 로컬/클라우드 엔드포인트 전환
프로덕션 배포 전, Apidog를 통한 통합 테스트를 권장합니다.
안전 및 책임감 있는 사용
Microsoft는 안전장치를 다음과 같이 적용했습니다.
- 가청 AI 고지: "이 부분은 AI에 의해 생성되었습니다" 자동 포함
- 비가청 워터마킹: 생성 오디오에 검증용 마커 삽입
- 추론 로깅: 해시 로그로 오용 패턴 탐지
- MIT 라이선스: 상업적 사용 가능, 단 프로덕션 배포는 추가 테스트 권장
허용되는 사용
- 연구/학술
- 내부 프로토타입/테스트
- AI 고지 포함 팟캐스트
- 접근성 앱(시각장애인 TTS)
허용되지 않는 사용
- 동의 없는 음성 사칭
- 딥페이크/실제 음성 둔갑
- 실시간 딥페이크 변환
- 비음성 오디오(음악 등) 생성
알아두어야 할 제한 사항
TTS 언어 지원: 영어/중국어만. 타 언어는 비정상 출력
ASR 하드웨어 요구: A100/H100 등급 GPU(24GB+ VRAM).
TTS: 7-8GB VRAM이면 실행 가능
겹치는 음성 미지원: 모든 대화는 순차 처리
모델 편향: Qwen2.5 기반 편향 상속
연구 등급 소프트웨어: 예외 처리/비영어 출력 등 미흡
Azure AI Foundry에 VibeVoice-ASR 배포
GPU 인프라 관리 없이, Microsoft의 Azure AI Foundry에서 VibeVoice-ASR을 관리형 API로 바로 배포할 수 있습니다. 오디오 업로드 → HTTPS 엔드포인트에서 구조화된 전사(JSON)를 반환합니다.
프로덕션 SLA와 확장성 보장이 필요하다면 Azure 배포를 검토하세요.
테스트 시 Apidog에서 엔드포인트와 인증 헤더 지정, 샘플 오디오로 전사 테스트를 실시하세요.
커뮤니티 및 생태계
VibeVoice는 활발한 커뮤니티와 에코시스템을 보유하고 있습니다.
- 1.5B 모델, 월 62,630+ HuggingFace 다운로드
- 2,280+ 좋아요, 79+ Spaces, 12개 미세 조정, 4개 양자화 버전
- 활발한 커뮤니티 포크(vibevoice-community/VibeVoice)
주요 프로젝트:
- VibeVoice-FastAPI: Docker 지원 REST API 래퍼
- VibeVoice MCP Server: 에이전트 도구용 MCP 프로토콜 지원
- Apple Silicon 지원: M-시리즈 Mac용 스크립트
- 양자화 모델: VRAM 최적화 GGUF 등
자주 묻는 질문
VibeVoice는 무료인가요?
네, 세 가지 모델 모두 MIT 라이선스(상업/비상업)로 무료입니다. Azure AI Foundry는 별도 과금.
Apple Silicon Mac에서 동작하나요?
커뮤니티 스크립트로 M-시리즈 Mac에서도 추론 가능(성능은 GPU 대비 낮음).
ElevenLabs와 비교?
VibeVoice는 로컬 실행, 데이터 유출 없음, API 비용 없음. ElevenLabs는 품질·사용성에서 우위, 유료·클라우드 기반.
GitHub 저장소 비활성화 이유?
음성 복제 사칭/딥페이크 악용 사례로 안전기능(고지, 워터마크) 추가 후 재오픈.
커스텀 음성 미세 조정 가능?
가능. HuggingFace에 12개 미세 조정 변형 있음. 24kHz WAV 샘플 필요.
출력 오디오 형식?
24kHz 모노 WAV. ffmpeg로 MP3/OGG/FLAC 변환 가능.
VibeVoice-ASR이 Whisper 대체 가능한가?
장문, 화자 식별, 구조화 전사에 적합. 짧고 시끄러운 클립, 에지 배포는 Whisper 추천.
실시간 음성 채팅 지원?
VibeVoice-Realtime-0.5B로 300ms 지연 스트리밍 지원. 전이중 실시간 음성 대화는 Azure OpenAI 등 이용 권장.






Top comments (0)