Rihpig

Posted on Apr 2 • Originally published at apidog.com

마이크로소프트 VibeVoice란? 오픈소스 음성 AI 모델 사용법

요약 (TL;DR)

VibeVoice는 Microsoft가 오픈 소스로 제공하는 음성 AI 제품군입니다. 세 가지 모델이 포함되며, 텍스트 음성 변환(VibeVoice-1.5B, 최대 90분, 4명 화자), 스트리밍 TTS(VibeVoice-Realtime-0.5B), 음성 인식(VibeVoice-ASR, 60분 오디오, 50개+ 언어, 7.77% WER)을 모두 로컬에서 실행할 수 있습니다. 모든 모델은 MIT 라이선스를 따릅니다. 이 가이드에서는 설치, 사용법, API 통합에 초점을 맞추어 빠르게 적용할 수 있도록 설명합니다.

지금 Apidog를 사용해보세요

소개

Microsoft의 VibeVoice는 2026년 초 오픈 소스 음성 AI 프레임워크로 공개되었습니다. 텍스트 음성 변환(TTS)과 자동 음성 인식(ASR) 모델이 모두 포함되어 있으며, 클라우드 없이 로컬 하드웨어에서 바로 실행할 수 있습니다.

프레임워크의 모델 구성은 아래와 같습니다.

VibeVoice-1.5B: 최대 90분, 4명 화자로 다중 대화 오디오 합성
VibeVoice-Realtime-0.5B: 약 300ms 지연의 경량 스트리밍 TTS
VibeVoice-ASR: 60분 오디오, 50개+ 언어, 화자 식별과 타임스탬프 포함 구조화된 음성 인식

TTS 모델은 보안 논란 후 일시적으로 저장소가 비활성화되었으나, 커뮤니티 포크와 함께 Microsoft가 워터마크·AI 고지 등 안전장치를 추가하여 다시 활성화되었습니다.

VibeVoice-ASR은 Azure AI Foundry를 통한 클라우드 배포도 지원합니다. TTS 모델은 연구 목적의 MIT 라이선스로 제공됩니다.

이 가이드에서는 설치, 텍스트 음성 변환, 음성 인식, API 통합, 그리고 Apidog로 음성 AI 엔드포인트를 테스트하는 실제적인 방법을 다룹니다.

VibeVoice 작동 방식: 아키텍처 개요

토크나이저의 혁신

VibeVoice는 7.5 Hz 초저 프레임 속도의 연속 음성 토크나이저를 도입했습니다. 기존 모델이 50-100 Hz로 처리하는 데 반해, 이 방식은 90분짜리 긴 오디오도 컨텍스트를 잃지 않고 처리할 수 있습니다.

토크나이저는 다음 두 가지가 있습니다.

음향 토크나이저: 3.4억 파라미터, 시그마-VAE 변형, 24kHz 입력 오디오를 3,200배 다운샘플링
의미 토크나이저: 언어적 의미 포착, ASR 프록시 태스크로 훈련

Next-token diffusion

LLM 백본(Qwen2.5-1.5B)과 1.23억 파라미터의 경량 확산 헤드를 조합합니다. LLM은 텍스트 컨텍스트, 확산 헤드는 DDPM 기반으로 고충실도 음향 세부 정보를 생성합니다.

총 파라미터: 30억 (토크나이저 및 확산 헤드 포함)

커리큘럼 학습

4K→16K→32K→64K 토큰 등 점진적으로 시퀀스 길이를 늘리며 커리큘럼 학습을 적용합니다. 이때 토크나이저는 고정, LLM/확산 헤드만 업데이트하여 모델이 장기 시퀀스 처리 능력을 잃지 않도록 합니다.

VibeVoice 모델 사양

모델	파라미터	용도	최대 길이	언어	라이선스
VibeVoice-1.5B	30억 (총)	텍스트 음성 변환	90분	영어, 중국어	MIT
VibeVoice-Realtime-0.5B	~0.5B	스트리밍 TTS	장문	영어, 중국어	MIT
VibeVoice-ASR	~9B	음성 인식	60분	50+개 언어	MIT

VibeVoice-1.5B (TTS)

사양	값
LLM 기반	Qwen2.5-1.5B
컨텍스트 길이	64K 토큰
최대 화자 수	4명 동시
오디오 출력	24kHz WAV 모노
텐서 유형	BF16
형식	Safetensors
HuggingFace 다운로드	월 62,630회
커뮤니티 포크	12개 미세 조정 변형

VibeVoice-ASR

사양	값
아키텍처 기반	Qwen2.5
파라미터	~9B
오디오 처리	단일 패스에서 최대 60분
프레임 속도	7.5 Hz
평균 WER	7.77% (8개 영어 데이터셋)
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
언어	50+개
출력	구조화 (누가+언제+무엇을)
지원 오디오	16kHz+ WAV, FLAC, MP3

설치 및 설정

선행 조건

Python 3.8 이상
CUDA 지원 NVIDIA GPU
TTS 모델: 최소 7-8GB VRAM
ASR 모델: 최소 24GB VRAM (A100/H100 권장)
최소 32GB RAM (ASR는 64GB 권장)
CUDA 11.8 이상 (12.0+ 권장)

VibeVoice TTS 설치

# 저장소 클론
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# 의존성 설치
pip install -r requirements.txt

최초 실행 시 모델이 HuggingFace에서 자동 다운로드됩니다. 사전 다운로드하려면:

from huggingface_hub import snapshot_download

snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

pip 설치 (커뮤니티 패키지)

pip install vibevoice

ASR용 설치

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

클라우드 추론은 Azure AI Foundry를 통해 배포할 수 있습니다.

VibeVoice-1.5B로 음성 생성

단일 화자 TTS 생성

텍스트 스크립트 파일 작성:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

추론 실행:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

outputs/에 .wav 파일이 생성됩니다.

다중 화자 팟캐스트 생성

최대 4명 화자, 90분 대화 지원. 예시 스크립트:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.

실행:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

음성 복제 (제로샷)

오디오 요구사항:

WAV(모노), 24,000Hz, 30-60초 명확한 음성

변환 예시:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Gradio 데모 실행:

python demo/gradio_demo.py

http://127.0.0.1:7860 접속 후 참조 오디오 업로드 → 화자 선택 → 음성 생성.

VibeVoice-Realtime-0.5B로 스트리밍

300ms 지연의 실시간 TTS:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

인터랙티브 앱에는 Realtime 모델, 사전 생성 콘텐츠에는 1.5B 모델을 추천.

Python에서 VibeVoice 사용

파이프라인 API

from transformers import pipeline
from huggingface_hub import snapshot_download

model_path = snapshot_download("microsoft/VibeVoice-1.5B")

pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

input_data = pipe.processor.apply_chat_template(script)

generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

프로덕션용 FastAPI 래퍼

커뮤니티 FastAPI 래퍼를 활용해 OpenAI 호환 API로 배포:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

API 예시 호출:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

OpenAI 형식 그대로 Apidog에서 엔드포인트 가져오기, 요청 본문 구성, 바로 음성 생성 테스트가 가능합니다.

VibeVoice-ASR을 이용한 음성 인식

기본 전사

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

구조화된 출력 예시

VibeVoice-ASR은 "누가/언제/무엇을" 구조로 결과를 반환합니다.

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

MCP 서버로서의 ASR

직접 MCP 서버로 실행하여 Claude Code, Cursor 등과 통합:

pip install vibevoice-mcp-server
vibevoice-mcp serve

VibeVoice-ASR vs Whisper

사용 사례	최고의 선택	이유
긴 회의(30-60분)	VibeVoice-ASR	단일 패스, 화자 ID, 대용량 지원
여러 화자 인터뷰	VibeVoice-ASR	내장 화자 분리
타임스탬프가 필요한 팟캐스트	VibeVoice-ASR	구조화된 출력
다국어 콘텐츠(50개+ 언어)	VibeVoice-ASR	더 넓은 언어 지원
시끄러운 짧은 클립	Whisper	노이즈 견고성
에지/모바일 배포	Whisper	작은 모델, 장치 호환성
비영어 특화	Whisper	성숙한 미세 조정

Apidog로 음성 AI API 테스트하기

VibeVoice FastAPI 래퍼, Azure AI Foundry 엔드포인트, 커스텀 음성 AI API 모두 Apidog로 쉽게 테스트할 수 있습니다.

TTS 엔드포인트 테스트

Apidog에서 FastAPI 서버 엔드포인트로 POST 요청 생성

본문 예시(OpenAI 호환):

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

audio/wav 응답 헤더 확인
응답을 WAV 파일로 저장 후 오디오 품질 확인

ASR 엔드포인트 테스트

multipart/form-data로 POST 요청 생성
오디오 파일 첨부
응답 JSON에 화자 ID, 타임스탬프, 전사 텍스트 포함 여부 확인

오디오 API 계약 유효성 검사

ASR: 바이너리 파일 업로드
TTS: JSON 본문 작성
전사 구조 응답 검증
환경 변수로 로컬/클라우드 엔드포인트 전환

프로덕션 배포 전, Apidog를 통한 통합 테스트를 권장합니다.

안전 및 책임감 있는 사용

Microsoft는 안전장치를 다음과 같이 적용했습니다.

가청 AI 고지: "이 부분은 AI에 의해 생성되었습니다" 자동 포함
비가청 워터마킹: 생성 오디오에 검증용 마커 삽입
추론 로깅: 해시 로그로 오용 패턴 탐지
MIT 라이선스: 상업적 사용 가능, 단 프로덕션 배포는 추가 테스트 권장

허용되는 사용

연구/학술
내부 프로토타입/테스트
AI 고지 포함 팟캐스트
접근성 앱(시각장애인 TTS)

허용되지 않는 사용

동의 없는 음성 사칭
딥페이크/실제 음성 둔갑
실시간 딥페이크 변환
비음성 오디오(음악 등) 생성

알아두어야 할 제한 사항

TTS 언어 지원: 영어/중국어만. 타 언어는 비정상 출력

ASR 하드웨어 요구: A100/H100 등급 GPU(24GB+ VRAM).

TTS: 7-8GB VRAM이면 실행 가능

겹치는 음성 미지원: 모든 대화는 순차 처리

모델 편향: Qwen2.5 기반 편향 상속

연구 등급 소프트웨어: 예외 처리/비영어 출력 등 미흡

Azure AI Foundry에 VibeVoice-ASR 배포

GPU 인프라 관리 없이, Microsoft의 Azure AI Foundry에서 VibeVoice-ASR을 관리형 API로 바로 배포할 수 있습니다. 오디오 업로드 → HTTPS 엔드포인트에서 구조화된 전사(JSON)를 반환합니다.

프로덕션 SLA와 확장성 보장이 필요하다면 Azure 배포를 검토하세요.

테스트 시 Apidog에서 엔드포인트와 인증 헤더 지정, 샘플 오디오로 전사 테스트를 실시하세요.

커뮤니티 및 생태계

VibeVoice는 활발한 커뮤니티와 에코시스템을 보유하고 있습니다.

1.5B 모델, 월 62,630+ HuggingFace 다운로드
2,280+ 좋아요, 79+ Spaces, 12개 미세 조정, 4개 양자화 버전
활발한 커뮤니티 포크(vibevoice-community/VibeVoice)

주요 프로젝트:

VibeVoice-FastAPI: Docker 지원 REST API 래퍼
VibeVoice MCP Server: 에이전트 도구용 MCP 프로토콜 지원
Apple Silicon 지원: M-시리즈 Mac용 스크립트
양자화 모델: VRAM 최적화 GGUF 등

자주 묻는 질문

VibeVoice는 무료인가요?

네, 세 가지 모델 모두 MIT 라이선스(상업/비상업)로 무료입니다. Azure AI Foundry는 별도 과금.

Apple Silicon Mac에서 동작하나요?

커뮤니티 스크립트로 M-시리즈 Mac에서도 추론 가능(성능은 GPU 대비 낮음).

ElevenLabs와 비교?

VibeVoice는 로컬 실행, 데이터 유출 없음, API 비용 없음. ElevenLabs는 품질·사용성에서 우위, 유료·클라우드 기반.

GitHub 저장소 비활성화 이유?

음성 복제 사칭/딥페이크 악용 사례로 안전기능(고지, 워터마크) 추가 후 재오픈.

커스텀 음성 미세 조정 가능?

가능. HuggingFace에 12개 미세 조정 변형 있음. 24kHz WAV 샘플 필요.

출력 오디오 형식?

24kHz 모노 WAV. ffmpeg로 MP3/OGG/FLAC 변환 가능.

VibeVoice-ASR이 Whisper 대체 가능한가?

장문, 화자 식별, 구조화 전사에 적합. 짧고 시끄러운 클립, 에지 배포는 Whisper 추천.

실시간 음성 채팅 지원?

VibeVoice-Realtime-0.5B로 300ms 지연 스트리밍 지원. 전이중 실시간 음성 대화는 Azure OpenAI 등 이용 권장.