DEV Community

Cover image for O Que É Microsoft VibeVoice? Como Usar os Modelos de IA de Voz de Código Aberto
Lucas
Lucas

Posted on • Originally published at apidog.com

O Que É Microsoft VibeVoice? Como Usar os Modelos de IA de Voz de Código Aberto

TL;DR

VibeVoice é a família de IA de voz de código aberto da Microsoft com três modelos: VibeVoice-1.5B para texto-para-fala (até 90 minutos, 4 locutores), VibeVoice-Realtime-0.5B para TTS em streaming e VibeVoice-ASR para reconhecimento de fala (áudio de 60 minutos, mais de 50 idiomas, WER de 7,77%). Todos os modelos são licenciados sob MIT e rodam localmente. Este guia cobre instalação, uso e integração de API.

Experimente o Apidog hoje

Introdução

A Microsoft lançou VibeVoice como um framework de IA de voz de código aberto no início de 2026. Ele inclui modelos tanto para síntese de fala (texto-para-fala) quanto para reconhecimento de fala (reconhecimento automático de fala), todos rodando localmente em seu hardware sem dependência de nuvem.

Microsoft VibeVoice - IA de Voz de Código Aberto

O framework possui três modelos:

  • VibeVoice-1.5B: gera áudio conversacional expressivo e multi-locutor a partir de scripts de texto. Pode sintetizar até 90 minutos de fala com 4 locutores distintos em uma única passagem.
  • VibeVoice-Realtime-0.5B: uma variante leve de streaming que produz áudio com latência de primeira parte de ~300ms.
  • VibeVoice-ASR: transcreve até 60 minutos de áudio contínuo com identificação de locutor, carimbos de data/hora e saída estruturada em mais de 50 idiomas.

Visão geral dos modelos VibeVoice

Os modelos TTS causaram controvérsia após o lançamento. A Microsoft desativou temporariamente o repositório principal do GitHub quando descobriu o uso indevido de clonagem de voz. A comunidade fez um fork do código, e a Microsoft posteriormente reativou o repositório com salvaguardas adicionais: um aviso sonoro de IA incorporado ao áudio gerado e uma marca d'água imperceptível para verificação de proveniência.

VibeVoice-ASR agora está disponível no Azure AI Foundry para implantação na nuvem. Os modelos TTS permanecem focados em pesquisa com licença MIT.

Este guia é focado em instalação, geração de texto-para-fala, reconhecimento de fala, integração de API e como testar endpoints de IA de voz com o Apidog.

Como VibeVoice funciona: visão geral da arquitetura

O avanço do tokenizador

O principal avanço do VibeVoice são seus tokenizadores de fala contínua operando em uma taxa de quadros ultrabaixa de 7,5 Hz. Para comparação, a maioria dos modelos de fala processa áudio a 50-100 Hz. Essa redução de 7-13x na taxa de quadros permite lidar com sequências longas (90 minutos de áudio) sem esgotar o contexto.

Arquitetura do tokenizador VibeVoice
Processamento de fala do VibeVoice

O sistema usa dois tokenizadores:

  • Tokenizador Acústico: Sigma-VAE (~340M parâmetros) em arquitetura codificador-decodificador espelhada. Faz downsample de 3.200x de áudio de 24kHz.
  • Tokenizador Semântico: Espelha a arquitetura do acústico, treinado para capturar significado linguístico via tarefa proxy ASR.

Difusão de próximo token

O modelo combina backbone LLM (Qwen2.5-1.5B) com uma cabeça de difusão (~123M parâmetros). O LLM lida com contexto textual e fluxo de diálogo. A cabeça de difusão gera detalhes acústicos de alta fidelidade via DDPM (Denoising Diffusion Probabilistic Models) com Classifier-Free Guidance.

  • Total de parâmetros: 3B (tokenizadores + cabeça de difusão).

Abordagem de treinamento

VibeVoice usa aprendizado curricular, treinando progressivamente em sequências de 4K, 16K, 32K e 64K tokens. Os tokenizadores pré-treinados permanecem congelados; apenas LLM e cabeça de difusão são treinados. Isso permite lidar com áudio longo sem esquecer formatos curtos.

Especificações do modelo VibeVoice

Modelo Parâmetros Propósito Comprimento máximo Idiomas Licença
VibeVoice-1.5B 3B (total) Texto-para-fala 90 minutos Inglês, Chinês MIT
VibeVoice-Realtime-0.5B ~0.5B TTS em Streaming Longo formato Inglês, Chinês MIT
VibeVoice-ASR ~9B Reconhecimento de fala 60 minutos 50+ idiomas MIT

VibeVoice-1.5B (TTS)

Especificação Valor
Base LLM Qwen2.5-1.5B
Comprimento contexto 64K tokens
Máx. locutores 4 simultâneos
Saída de áudio WAV mono 24kHz
Tipo de tensor BF16
Formato Safetensors
Downloads HF 62.630/mês
Forks comunidade 12 variantes ajustadas

VibeVoice-ASR

Especificação Valor
Base da arquitetura Qwen2.5
Parâmetros ~9B
Processamento de áudio Até 60 minutos em uma única passagem
Taxa de quadros 7.5 Hz
WER médio 7.77% (8 datasets em inglês)
WER LibriSpeech Clean 2.20%
WER TED-LIUM 2.57%
Idiomas 50+
Saída Estruturada (Quem + Quando + O quê)
Áudio suportado WAV, FLAC, MP3 a 16kHz+

Instalação e configuração

Pré-requisitos

  • Python 3.8+
  • GPU NVIDIA com suporte a CUDA
  • 7-8 GB VRAM (TTS) / 24 GB VRAM (ASR, A100/H100 recomendado)
  • 32 GB RAM (64 GB recomendado para ASR)
  • CUDA 11.8+ (12.0+ recomendado)

Instalar VibeVoice TTS

# Clonar o repositório
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Instalar dependências
pip install -r requirements.txt
Enter fullscreen mode Exit fullscreen mode

Os modelos são baixados automaticamente na primeira execução, mas você pode baixar previamente:

from huggingface_hub import snapshot_download

# Baixar o modelo TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)
Enter fullscreen mode Exit fullscreen mode

Instalar via pip (pacote da comunidade)

pip install vibevoice
Enter fullscreen mode Exit fullscreen mode

Instalar para ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Enter fullscreen mode Exit fullscreen mode

Ou implante via Azure AI Foundry para inferência gerenciada na nuvem.

Gerando fala com VibeVoice-1.5B

Geração de locutor único

Crie um arquivo de texto com seu script:

Alice: Bem-vindos ao podcast de desenvolvedores Apidog. Hoje vamos cobrir as estratégias de teste de API para 2026.
Enter fullscreen mode Exit fullscreen mode

Execute a inferência:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

A saída é salva como um arquivo .wav no diretório outputs/.

Geração de podcast multi-locutor

VibeVoice suporta até 4 locutores com identidades de voz distintas:

Alice: De volta ao programa. Hoje temos dois especialistas em API conosco.
Bob: Obrigado por me receber. Tenho trabalhado em padrões de design de REST API nos últimos cinco anos.
Carol: E eu me concentro na otimização de desempenho do GraphQL. Feliz em estar aqui.
Alice: Vamos começar com o debate que todos querem ouvir. REST versus GraphQL para microsserviços.
Bob: REST oferece limites claros de recursos. Cada endpoint mapeia para um recurso específico.
Carol: GraphQL oferece flexibilidade. Um endpoint, e o cliente decide quais dados precisa.
Enter fullscreen mode Exit fullscreen mode
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

O modelo mantém características de voz para cada locutor durante toda a conversa.

Clonagem de voz (zero-shot)

Requisitos do áudio:

  • Formato: WAV (mono)
  • Taxa: 24.000 Hz
  • Duração: 30-60 segundos de fala clara

Converta áudio:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Enter fullscreen mode Exit fullscreen mode

Utilize a interface Gradio para clonagem:

python demo/gradio_demo.py
Enter fullscreen mode Exit fullscreen mode

Acesse http://127.0.0.1:7860, faça upload da referência e gere a fala clonada.

Streaming com VibeVoice-Realtime-0.5B

Para baixa latência:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice
Enter fullscreen mode Exit fullscreen mode

Use este modelo para aplicativos interativos; para máxima fidelidade use o 1.5B.

Usando VibeVoice com Python

API de Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Baixar modelo
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Carregar pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Script multi-locutor
script = [
    {"role": "Alice", "content": "Como você lida com o versionamento de API?"},
    {"role": "Bob", "content": "Usamos o versionamento do caminho da URL. v1, v2 e assim por diante."},
]

# Template de chat
input_data = pipe.processor.apply_chat_template(script)

# Gerar áudio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)
Enter fullscreen mode Exit fullscreen mode

Wrapper FastAPI para produção

A comunidade mantém um wrapper FastAPI compatível com OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Enter fullscreen mode Exit fullscreen mode

API compatível com o formato OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Sua documentação de API deve ser uma conversa, não um monólogo.",
    "voice": "alice"
  }' \
  --output speech.wav
Enter fullscreen mode Exit fullscreen mode

Esse endpoint pode ser testado facilmente com o Apidog usando o mesmo payload da API TTS da OpenAI.

Usando VibeVoice-ASR para reconhecimento de fala

Transcrições básicas

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav
Enter fullscreen mode Exit fullscreen mode

Formato de saída estruturado

VibeVoice-ASR fornece transcrição estruturada:

  • Quem: Identidade do locutor
  • Quando: Carimbos de data/hora
  • O quê: Texto transcrito

Exemplo de saída:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Vamos revisar os endpoints da API para o novo lançamento."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Adicionei três novos endpoints para o módulo de faturamento."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

ASR como um servidor MCP

Execute como servidor MCP para integração com ferramentas de IA:

pip install vibevoice-mcp-server

vibevoice-mcp serve
Enter fullscreen mode Exit fullscreen mode

Integre transcrição em seu fluxo de trabalho de codificação.

Quando usar VibeVoice-ASR vs Whisper

Caso de uso Melhor opção Por quê
Reuniões longas (30-60 min) VibeVoice-ASR Processamento de 60 min em uma única passagem, diarização
Entrevistas com múltiplos locutores VibeVoice-ASR Diarização integrada
Podcasts com carimbos de data/hora VibeVoice-ASR Saída estruturada
Conteúdo multilíngue (50+ idiomas) VibeVoice-ASR Amplo suporte a idiomas
Clipes curtos em ambientes ruidosos Whisper Melhor robustez a ruído
Edge/mobile Whisper Modelos menores, mais dispositivos suportados
Idiomas não-Inglês (especializados) Whisper Ajuste multilíngue mais maduro

Testando APIs de IA de voz com Apidog

O Apidog facilita o teste e depuração de integrações de IA de voz.

Testando APIs de IA de Voz com Apidog

Testar o endpoint TTS

  1. Crie uma requisição POST no Apidog para seu endpoint FastAPI
  2. Corpo compatível com OpenAI:
{
  "model": "vibevoice-1.5b",
  "input": "Testar a síntese de fala com entonação e ritmo adequados.",
  "voice": "alice",
  "response_format": "wav"
}
Enter fullscreen mode Exit fullscreen mode
  1. Envie a requisição e verifique se a resposta inclui audio/wav
  2. Salve o arquivo WAV e revise a qualidade

Testar o endpoint ASR

  1. Envie uma requisição POST com multipart/form-data
  2. Anexe o arquivo de áudio
  3. Verifique se a resposta inclui IDs de locutor, timestamps e texto

Validar contratos de API de áudio

O Apidog lida com:

  • Upload de arquivos binários (ASR)
  • Corpo JSON (TTS)
  • Validação de resposta estruturada
  • Variáveis de ambiente para troca de endpoints

Baixe o Apidog para testar suas integrações antes de ir para produção.

Segurança e uso responsável

A Microsoft implementou as seguintes salvaguardas:

  • Aviso sonoro de IA: Todo áudio inclui "Este segmento foi gerado por IA"
  • Marca d'água imperceptível: Permite verificação por terceiros
  • Registro de inferência: Logs com hash para detectar abuso
  • Licença MIT: Uso comercial permitido, mas não recomendado para produção sem testes

O que é permitido

  • Pesquisa e uso acadêmico
  • Prototipagem e testes internos
  • Podcast com divulgação de IA
  • Acessibilidade (TTS para deficientes visuais)

O que não é permitido

  • Falsa identidade de voz sem consentimento
  • Deepfakes ou apresentar áudio de IA como humano genuíno
  • Conversão de voz em tempo real para deepfakes ao vivo
  • Geração de áudio não-fala (música, efeitos)

Limitações a serem observadas

TTS só suporta inglês e chinês. Outros idiomas geram saída ininteligível. ASR cobre 50+ idiomas.

Limitações do VibeVoice

ASR exige hardware robusto. Mais de 24 GB VRAM (A100/H100). TTS roda em placas consumidoras (7-8 GB VRAM).

Sem tratamento para fala sobreposta. TTS não modela interrupções; diálogo é sempre por turnos.

Vieses do modelo. Ambos herdam vieses do Qwen2.5 e podem produzir saídas inesperadas.

Software de pesquisa. Não pronto para produção; espere limitações e erros em casos extremos.

Implantando VibeVoice-ASR no Azure AI Foundry

Para evitar a gestão de infraestrutura de GPU, utilize o VibeVoice-ASR no Azure AI Foundry. Você terá um endpoint HTTPS gerenciado que aceita áudio e retorna transcrição estruturada.

A plataforma cuida de escalonamento, updates e manutenção. Para testar, configure a URL e autenticação no Apidog e envie arquivos de áudio de exemplo.

Comunidade e ecossistema

A comunidade VibeVoice é ativa:

  • 62.630+ downloads mensais no HuggingFace (1.5B)
  • 2.280+ curtidas no HuggingFace
  • 79+ HuggingFace Spaces rodando o modelo
  • 12 variantes ajustadas pela comunidade
  • 4 versões quantizadas para VRAM reduzida
  • Fork ativo: vibevoice-community/VibeVoice

Projetos comunitários:

  • VibeVoice-FastAPI: wrapper REST, suporte Docker
  • VibeVoice MCP Server: integração com ferramentas de IA
  • Apple Silicon: scripts para Macs M1/M2
  • Modelos quantizados: GGUF e outros formatos

FAQ

VibeVoice é gratuito para usar?

Sim. Todos os modelos são licenciados sob MIT. Uso comercial e pessoal é permitido. Azure AI Foundry tem preços próprios para inferência em nuvem.

VibeVoice pode rodar em Macs Apple Silicon?

Sim, via scripts comunitários. Verifique as discussões no HuggingFace. O desempenho é menor que CUDA, mas funcional.

Como o VibeVoice se compara ao ElevenLabs?

VibeVoice roda localmente sem custos ou vazamento de dados. ElevenLabs tem melhor qualidade, mais vozes e facilidade de uso, mas requer assinatura e nuvem. Para privacidade e offline, VibeVoice é melhor; para produção, ElevenLabs se destaca.

Por que o repositório GitHub foi temporariamente desativado?

Devido a abuso de clonagem de voz (deepfakes). Microsoft adicionou salvaguardas e reabriu o repositório. O fork da comunidade manteve o desenvolvimento.

Posso ajustar o VibeVoice com vozes personalizadas?

Sim. Há 12 variantes ajustadas no HuggingFace. São necessários 30-60s de áudio WAV mono 24kHz e GPU para o ajuste.

Quais formatos de áudio o VibeVoice gera?

WAV a 24.000 Hz mono. Converta para outros formatos com ffmpeg.

Posso usar VibeVoice-ASR como substituto do Whisper?

Sim, para áudio longo com identificação de locutor. Whisper requer ferramentas externas para diarização e tem dificuldades acima de 30 min. Para clipes curtos/edge, Whisper ainda é melhor.

VibeVoice suporta chat de voz em tempo real?

VibeVoice-Realtime-0.5B faz streaming de texto com latência ~300ms, suficiente para aplicações quase em tempo real, mas não para conversação full-duplex. Para isso, use GPT-Realtime do Azure OpenAI ou serviços similares.

Top comments (0)