Lucas

Posted on Apr 2 • Originally published at apidog.com

O Que É Microsoft VibeVoice? Como Usar os Modelos de IA de Voz de Código Aberto

#ai #microsoft #opensource #tutorial

TL;DR

VibeVoice é a família de IA de voz de código aberto da Microsoft com três modelos: VibeVoice-1.5B para texto-para-fala (até 90 minutos, 4 locutores), VibeVoice-Realtime-0.5B para TTS em streaming e VibeVoice-ASR para reconhecimento de fala (áudio de 60 minutos, mais de 50 idiomas, WER de 7,77%). Todos os modelos são licenciados sob MIT e rodam localmente. Este guia cobre instalação, uso e integração de API.

Experimente o Apidog hoje

Introdução

A Microsoft lançou VibeVoice como um framework de IA de voz de código aberto no início de 2026. Ele inclui modelos tanto para síntese de fala (texto-para-fala) quanto para reconhecimento de fala (reconhecimento automático de fala), todos rodando localmente em seu hardware sem dependência de nuvem.

O framework possui três modelos:

VibeVoice-1.5B: gera áudio conversacional expressivo e multi-locutor a partir de scripts de texto. Pode sintetizar até 90 minutos de fala com 4 locutores distintos em uma única passagem.
VibeVoice-Realtime-0.5B: uma variante leve de streaming que produz áudio com latência de primeira parte de ~300ms.
VibeVoice-ASR: transcreve até 60 minutos de áudio contínuo com identificação de locutor, carimbos de data/hora e saída estruturada em mais de 50 idiomas.

Os modelos TTS causaram controvérsia após o lançamento. A Microsoft desativou temporariamente o repositório principal do GitHub quando descobriu o uso indevido de clonagem de voz. A comunidade fez um fork do código, e a Microsoft posteriormente reativou o repositório com salvaguardas adicionais: um aviso sonoro de IA incorporado ao áudio gerado e uma marca d'água imperceptível para verificação de proveniência.

VibeVoice-ASR agora está disponível no Azure AI Foundry para implantação na nuvem. Os modelos TTS permanecem focados em pesquisa com licença MIT.

Este guia é focado em instalação, geração de texto-para-fala, reconhecimento de fala, integração de API e como testar endpoints de IA de voz com o Apidog.

Como VibeVoice funciona: visão geral da arquitetura

O avanço do tokenizador

O principal avanço do VibeVoice são seus tokenizadores de fala contínua operando em uma taxa de quadros ultrabaixa de 7,5 Hz. Para comparação, a maioria dos modelos de fala processa áudio a 50-100 Hz. Essa redução de 7-13x na taxa de quadros permite lidar com sequências longas (90 minutos de áudio) sem esgotar o contexto.

O sistema usa dois tokenizadores:

Tokenizador Acústico: Sigma-VAE (~340M parâmetros) em arquitetura codificador-decodificador espelhada. Faz downsample de 3.200x de áudio de 24kHz.
Tokenizador Semântico: Espelha a arquitetura do acústico, treinado para capturar significado linguístico via tarefa proxy ASR.

Difusão de próximo token

O modelo combina backbone LLM (Qwen2.5-1.5B) com uma cabeça de difusão (~123M parâmetros). O LLM lida com contexto textual e fluxo de diálogo. A cabeça de difusão gera detalhes acústicos de alta fidelidade via DDPM (Denoising Diffusion Probabilistic Models) com Classifier-Free Guidance.

Total de parâmetros: 3B (tokenizadores + cabeça de difusão).

Abordagem de treinamento

VibeVoice usa aprendizado curricular, treinando progressivamente em sequências de 4K, 16K, 32K e 64K tokens. Os tokenizadores pré-treinados permanecem congelados; apenas LLM e cabeça de difusão são treinados. Isso permite lidar com áudio longo sem esquecer formatos curtos.

Especificações do modelo VibeVoice

Modelo	Parâmetros	Propósito	Comprimento máximo	Idiomas	Licença
VibeVoice-1.5B	3B (total)	Texto-para-fala	90 minutos	Inglês, Chinês	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS em Streaming	Longo formato	Inglês, Chinês	MIT
VibeVoice-ASR	~9B	Reconhecimento de fala	60 minutos	50+ idiomas	MIT

VibeVoice-1.5B (TTS)

Especificação	Valor
Base LLM	Qwen2.5-1.5B
Comprimento contexto	64K tokens
Máx. locutores	4 simultâneos
Saída de áudio	WAV mono 24kHz
Tipo de tensor	BF16
Formato	Safetensors
Downloads HF	62.630/mês
Forks comunidade	12 variantes ajustadas

VibeVoice-ASR

Especificação	Valor
Base da arquitetura	Qwen2.5
Parâmetros	~9B
Processamento de áudio	Até 60 minutos em uma única passagem
Taxa de quadros	7.5 Hz
WER médio	7.77% (8 datasets em inglês)
WER LibriSpeech Clean	2.20%
WER TED-LIUM	2.57%
Idiomas	50+
Saída	Estruturada (Quem + Quando + O quê)
Áudio suportado	WAV, FLAC, MP3 a 16kHz+

Instalação e configuração

Pré-requisitos

Python 3.8+
GPU NVIDIA com suporte a CUDA
7-8 GB VRAM (TTS) / 24 GB VRAM (ASR, A100/H100 recomendado)
32 GB RAM (64 GB recomendado para ASR)
CUDA 11.8+ (12.0+ recomendado)

Instalar VibeVoice TTS

# Clonar o repositório
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Instalar dependências
pip install -r requirements.txt

Os modelos são baixados automaticamente na primeira execução, mas você pode baixar previamente:

from huggingface_hub import snapshot_download

# Baixar o modelo TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instalar via pip (pacote da comunidade)

pip install vibevoice

Instalar para ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Ou implante via Azure AI Foundry para inferência gerenciada na nuvem.

Gerando fala com VibeVoice-1.5B

Geração de locutor único

Crie um arquivo de texto com seu script:

Alice: Bem-vindos ao podcast de desenvolvedores Apidog. Hoje vamos cobrir as estratégias de teste de API para 2026.

Execute a inferência:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

A saída é salva como um arquivo .wav no diretório outputs/.

Geração de podcast multi-locutor

VibeVoice suporta até 4 locutores com identidades de voz distintas:

Alice: De volta ao programa. Hoje temos dois especialistas em API conosco.
Bob: Obrigado por me receber. Tenho trabalhado em padrões de design de REST API nos últimos cinco anos.
Carol: E eu me concentro na otimização de desempenho do GraphQL. Feliz em estar aqui.
Alice: Vamos começar com o debate que todos querem ouvir. REST versus GraphQL para microsserviços.
Bob: REST oferece limites claros de recursos. Cada endpoint mapeia para um recurso específico.
Carol: GraphQL oferece flexibilidade. Um endpoint, e o cliente decide quais dados precisa.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

O modelo mantém características de voz para cada locutor durante toda a conversa.

Clonagem de voz (zero-shot)

Requisitos do áudio:

Formato: WAV (mono)
Taxa: 24.000 Hz
Duração: 30-60 segundos de fala clara

Converta áudio:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Utilize a interface Gradio para clonagem:

python demo/gradio_demo.py

Acesse http://127.0.0.1:7860, faça upload da referência e gere a fala clonada.

Streaming com VibeVoice-Realtime-0.5B

Para baixa latência:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Use este modelo para aplicativos interativos; para máxima fidelidade use o 1.5B.

Usando VibeVoice com Python

API de Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Baixar modelo
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Carregar pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Script multi-locutor
script = [
    {"role": "Alice", "content": "Como você lida com o versionamento de API?"},
    {"role": "Bob", "content": "Usamos o versionamento do caminho da URL. v1, v2 e assim por diante."},
]

# Template de chat
input_data = pipe.processor.apply_chat_template(script)

# Gerar áudio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI para produção

A comunidade mantém um wrapper FastAPI compatível com OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

API compatível com o formato OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Sua documentação de API deve ser uma conversa, não um monólogo.",
    "voice": "alice"
  }' \
  --output speech.wav

Esse endpoint pode ser testado facilmente com o Apidog usando o mesmo payload da API TTS da OpenAI.

Usando VibeVoice-ASR para reconhecimento de fala

Transcrições básicas

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Formato de saída estruturado

VibeVoice-ASR fornece transcrição estruturada:

Quem: Identidade do locutor
Quando: Carimbos de data/hora
O quê: Texto transcrito

Exemplo de saída:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Vamos revisar os endpoints da API para o novo lançamento."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Adicionei três novos endpoints para o módulo de faturamento."
    }
  ]
}

ASR como um servidor MCP

Execute como servidor MCP para integração com ferramentas de IA:

pip install vibevoice-mcp-server

vibevoice-mcp serve

Integre transcrição em seu fluxo de trabalho de codificação.

Quando usar VibeVoice-ASR vs Whisper

Caso de uso	Melhor opção	Por quê
Reuniões longas (30-60 min)	VibeVoice-ASR	Processamento de 60 min em uma única passagem, diarização
Entrevistas com múltiplos locutores	VibeVoice-ASR	Diarização integrada
Podcasts com carimbos de data/hora	VibeVoice-ASR	Saída estruturada
Conteúdo multilíngue (50+ idiomas)	VibeVoice-ASR	Amplo suporte a idiomas
Clipes curtos em ambientes ruidosos	Whisper	Melhor robustez a ruído
Edge/mobile	Whisper	Modelos menores, mais dispositivos suportados
Idiomas não-Inglês (especializados)	Whisper	Ajuste multilíngue mais maduro

Testando APIs de IA de voz com Apidog

O Apidog facilita o teste e depuração de integrações de IA de voz.

Testar o endpoint TTS

Crie uma requisição POST no Apidog para seu endpoint FastAPI
Corpo compatível com OpenAI:

{
  "model": "vibevoice-1.5b",
  "input": "Testar a síntese de fala com entonação e ritmo adequados.",
  "voice": "alice",
  "response_format": "wav"
}

Envie a requisição e verifique se a resposta inclui audio/wav
Salve o arquivo WAV e revise a qualidade

Testar o endpoint ASR

Envie uma requisição POST com multipart/form-data
Anexe o arquivo de áudio
Verifique se a resposta inclui IDs de locutor, timestamps e texto

Validar contratos de API de áudio

O Apidog lida com:

Upload de arquivos binários (ASR)
Corpo JSON (TTS)
Validação de resposta estruturada
Variáveis de ambiente para troca de endpoints

Baixe o Apidog para testar suas integrações antes de ir para produção.

Segurança e uso responsável

A Microsoft implementou as seguintes salvaguardas:

Aviso sonoro de IA: Todo áudio inclui "Este segmento foi gerado por IA"
Marca d'água imperceptível: Permite verificação por terceiros
Registro de inferência: Logs com hash para detectar abuso
Licença MIT: Uso comercial permitido, mas não recomendado para produção sem testes

O que é permitido

Pesquisa e uso acadêmico
Prototipagem e testes internos
Podcast com divulgação de IA
Acessibilidade (TTS para deficientes visuais)

O que não é permitido

Falsa identidade de voz sem consentimento
Deepfakes ou apresentar áudio de IA como humano genuíno
Conversão de voz em tempo real para deepfakes ao vivo
Geração de áudio não-fala (música, efeitos)

Limitações a serem observadas

TTS só suporta inglês e chinês. Outros idiomas geram saída ininteligível. ASR cobre 50+ idiomas.

ASR exige hardware robusto. Mais de 24 GB VRAM (A100/H100). TTS roda em placas consumidoras (7-8 GB VRAM).

Sem tratamento para fala sobreposta. TTS não modela interrupções; diálogo é sempre por turnos.

Vieses do modelo. Ambos herdam vieses do Qwen2.5 e podem produzir saídas inesperadas.

Software de pesquisa. Não pronto para produção; espere limitações e erros em casos extremos.

Implantando VibeVoice-ASR no Azure AI Foundry

Para evitar a gestão de infraestrutura de GPU, utilize o VibeVoice-ASR no Azure AI Foundry. Você terá um endpoint HTTPS gerenciado que aceita áudio e retorna transcrição estruturada.

A plataforma cuida de escalonamento, updates e manutenção. Para testar, configure a URL e autenticação no Apidog e envie arquivos de áudio de exemplo.

Comunidade e ecossistema

A comunidade VibeVoice é ativa:

62.630+ downloads mensais no HuggingFace (1.5B)
2.280+ curtidas no HuggingFace
79+ HuggingFace Spaces rodando o modelo
12 variantes ajustadas pela comunidade
4 versões quantizadas para VRAM reduzida
Fork ativo: vibevoice-community/VibeVoice

Projetos comunitários:

VibeVoice-FastAPI: wrapper REST, suporte Docker
VibeVoice MCP Server: integração com ferramentas de IA
Apple Silicon: scripts para Macs M1/M2
Modelos quantizados: GGUF e outros formatos

FAQ

VibeVoice é gratuito para usar?

Sim. Todos os modelos são licenciados sob MIT. Uso comercial e pessoal é permitido. Azure AI Foundry tem preços próprios para inferência em nuvem.

VibeVoice pode rodar em Macs Apple Silicon?

Sim, via scripts comunitários. Verifique as discussões no HuggingFace. O desempenho é menor que CUDA, mas funcional.

Como o VibeVoice se compara ao ElevenLabs?

VibeVoice roda localmente sem custos ou vazamento de dados. ElevenLabs tem melhor qualidade, mais vozes e facilidade de uso, mas requer assinatura e nuvem. Para privacidade e offline, VibeVoice é melhor; para produção, ElevenLabs se destaca.

Por que o repositório GitHub foi temporariamente desativado?

Devido a abuso de clonagem de voz (deepfakes). Microsoft adicionou salvaguardas e reabriu o repositório. O fork da comunidade manteve o desenvolvimento.

Posso ajustar o VibeVoice com vozes personalizadas?

Sim. Há 12 variantes ajustadas no HuggingFace. São necessários 30-60s de áudio WAV mono 24kHz e GPU para o ajuste.

Quais formatos de áudio o VibeVoice gera?

WAV a 24.000 Hz mono. Converta para outros formatos com ffmpeg.

Posso usar VibeVoice-ASR como substituto do Whisper?

Sim, para áudio longo com identificação de locutor. Whisper requer ferramentas externas para diarização e tem dificuldades acima de 30 min. Para clipes curtos/edge, Whisper ainda é melhor.

VibeVoice suporta chat de voz em tempo real?

VibeVoice-Realtime-0.5B faz streaming de texto com latência ~300ms, suficiente para aplicações quase em tempo real, mas não para conversação full-duplex. Para isso, use GPT-Realtime do Azure OpenAI ou serviços similares.