TL;DR
VibeVoice é a família de IA de voz de código aberto da Microsoft com três modelos: VibeVoice-1.5B para texto-para-fala (até 90 minutos, 4 locutores), VibeVoice-Realtime-0.5B para TTS em streaming e VibeVoice-ASR para reconhecimento de fala (áudio de 60 minutos, mais de 50 idiomas, WER de 7,77%). Todos os modelos são licenciados sob MIT e rodam localmente. Este guia cobre instalação, uso e integração de API.
Introdução
A Microsoft lançou VibeVoice como um framework de IA de voz de código aberto no início de 2026. Ele inclui modelos tanto para síntese de fala (texto-para-fala) quanto para reconhecimento de fala (reconhecimento automático de fala), todos rodando localmente em seu hardware sem dependência de nuvem.
O framework possui três modelos:
- VibeVoice-1.5B: gera áudio conversacional expressivo e multi-locutor a partir de scripts de texto. Pode sintetizar até 90 minutos de fala com 4 locutores distintos em uma única passagem.
- VibeVoice-Realtime-0.5B: uma variante leve de streaming que produz áudio com latência de primeira parte de ~300ms.
- VibeVoice-ASR: transcreve até 60 minutos de áudio contínuo com identificação de locutor, carimbos de data/hora e saída estruturada em mais de 50 idiomas.
Os modelos TTS causaram controvérsia após o lançamento. A Microsoft desativou temporariamente o repositório principal do GitHub quando descobriu o uso indevido de clonagem de voz. A comunidade fez um fork do código, e a Microsoft posteriormente reativou o repositório com salvaguardas adicionais: um aviso sonoro de IA incorporado ao áudio gerado e uma marca d'água imperceptível para verificação de proveniência.
VibeVoice-ASR agora está disponível no Azure AI Foundry para implantação na nuvem. Os modelos TTS permanecem focados em pesquisa com licença MIT.
Este guia é focado em instalação, geração de texto-para-fala, reconhecimento de fala, integração de API e como testar endpoints de IA de voz com o Apidog.
Como VibeVoice funciona: visão geral da arquitetura
O avanço do tokenizador
O principal avanço do VibeVoice são seus tokenizadores de fala contínua operando em uma taxa de quadros ultrabaixa de 7,5 Hz. Para comparação, a maioria dos modelos de fala processa áudio a 50-100 Hz. Essa redução de 7-13x na taxa de quadros permite lidar com sequências longas (90 minutos de áudio) sem esgotar o contexto.
O sistema usa dois tokenizadores:
- Tokenizador Acústico: Sigma-VAE (~340M parâmetros) em arquitetura codificador-decodificador espelhada. Faz downsample de 3.200x de áudio de 24kHz.
- Tokenizador Semântico: Espelha a arquitetura do acústico, treinado para capturar significado linguístico via tarefa proxy ASR.
Difusão de próximo token
O modelo combina backbone LLM (Qwen2.5-1.5B) com uma cabeça de difusão (~123M parâmetros). O LLM lida com contexto textual e fluxo de diálogo. A cabeça de difusão gera detalhes acústicos de alta fidelidade via DDPM (Denoising Diffusion Probabilistic Models) com Classifier-Free Guidance.
- Total de parâmetros: 3B (tokenizadores + cabeça de difusão).
Abordagem de treinamento
VibeVoice usa aprendizado curricular, treinando progressivamente em sequências de 4K, 16K, 32K e 64K tokens. Os tokenizadores pré-treinados permanecem congelados; apenas LLM e cabeça de difusão são treinados. Isso permite lidar com áudio longo sem esquecer formatos curtos.
Especificações do modelo VibeVoice
| Modelo | Parâmetros | Propósito | Comprimento máximo | Idiomas | Licença |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (total) | Texto-para-fala | 90 minutos | Inglês, Chinês | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS em Streaming | Longo formato | Inglês, Chinês | MIT |
| VibeVoice-ASR | ~9B | Reconhecimento de fala | 60 minutos | 50+ idiomas | MIT |
VibeVoice-1.5B (TTS)
| Especificação | Valor |
|---|---|
| Base LLM | Qwen2.5-1.5B |
| Comprimento contexto | 64K tokens |
| Máx. locutores | 4 simultâneos |
| Saída de áudio | WAV mono 24kHz |
| Tipo de tensor | BF16 |
| Formato | Safetensors |
| Downloads HF | 62.630/mês |
| Forks comunidade | 12 variantes ajustadas |
VibeVoice-ASR
| Especificação | Valor |
|---|---|
| Base da arquitetura | Qwen2.5 |
| Parâmetros | ~9B |
| Processamento de áudio | Até 60 minutos em uma única passagem |
| Taxa de quadros | 7.5 Hz |
| WER médio | 7.77% (8 datasets em inglês) |
| WER LibriSpeech Clean | 2.20% |
| WER TED-LIUM | 2.57% |
| Idiomas | 50+ |
| Saída | Estruturada (Quem + Quando + O quê) |
| Áudio suportado | WAV, FLAC, MP3 a 16kHz+ |
Instalação e configuração
Pré-requisitos
- Python 3.8+
- GPU NVIDIA com suporte a CUDA
- 7-8 GB VRAM (TTS) / 24 GB VRAM (ASR, A100/H100 recomendado)
- 32 GB RAM (64 GB recomendado para ASR)
- CUDA 11.8+ (12.0+ recomendado)
Instalar VibeVoice TTS
# Clonar o repositório
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Instalar dependências
pip install -r requirements.txt
Os modelos são baixados automaticamente na primeira execução, mas você pode baixar previamente:
from huggingface_hub import snapshot_download
# Baixar o modelo TTS 1.5B
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Instalar via pip (pacote da comunidade)
pip install vibevoice
Instalar para ASR
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Ou implante via Azure AI Foundry para inferência gerenciada na nuvem.
Gerando fala com VibeVoice-1.5B
Geração de locutor único
Crie um arquivo de texto com seu script:
Alice: Bem-vindos ao podcast de desenvolvedores Apidog. Hoje vamos cobrir as estratégias de teste de API para 2026.
Execute a inferência:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
A saída é salva como um arquivo .wav no diretório outputs/.
Geração de podcast multi-locutor
VibeVoice suporta até 4 locutores com identidades de voz distintas:
Alice: De volta ao programa. Hoje temos dois especialistas em API conosco.
Bob: Obrigado por me receber. Tenho trabalhado em padrões de design de REST API nos últimos cinco anos.
Carol: E eu me concentro na otimização de desempenho do GraphQL. Feliz em estar aqui.
Alice: Vamos começar com o debate que todos querem ouvir. REST versus GraphQL para microsserviços.
Bob: REST oferece limites claros de recursos. Cada endpoint mapeia para um recurso específico.
Carol: GraphQL oferece flexibilidade. Um endpoint, e o cliente decide quais dados precisa.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
O modelo mantém características de voz para cada locutor durante toda a conversa.
Clonagem de voz (zero-shot)
Requisitos do áudio:
- Formato: WAV (mono)
- Taxa: 24.000 Hz
- Duração: 30-60 segundos de fala clara
Converta áudio:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Utilize a interface Gradio para clonagem:
python demo/gradio_demo.py
Acesse http://127.0.0.1:7860, faça upload da referência e gere a fala clonada.
Streaming com VibeVoice-Realtime-0.5B
Para baixa latência:
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Use este modelo para aplicativos interativos; para máxima fidelidade use o 1.5B.
Usando VibeVoice com Python
API de Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Baixar modelo
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Carregar pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Script multi-locutor
script = [
{"role": "Alice", "content": "Como você lida com o versionamento de API?"},
{"role": "Bob", "content": "Usamos o versionamento do caminho da URL. v1, v2 e assim por diante."},
]
# Template de chat
input_data = pipe.processor.apply_chat_template(script)
# Gerar áudio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Wrapper FastAPI para produção
A comunidade mantém um wrapper FastAPI compatível com OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
API compatível com o formato OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Sua documentação de API deve ser uma conversa, não um monólogo.",
"voice": "alice"
}' \
--output speech.wav
Esse endpoint pode ser testado facilmente com o Apidog usando o mesmo payload da API TTS da OpenAI.
Usando VibeVoice-ASR para reconhecimento de fala
Transcrições básicas
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Formato de saída estruturado
VibeVoice-ASR fornece transcrição estruturada:
- Quem: Identidade do locutor
- Quando: Carimbos de data/hora
- O quê: Texto transcrito
Exemplo de saída:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Vamos revisar os endpoints da API para o novo lançamento."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "Adicionei três novos endpoints para o módulo de faturamento."
}
]
}
ASR como um servidor MCP
Execute como servidor MCP para integração com ferramentas de IA:
pip install vibevoice-mcp-server
vibevoice-mcp serve
Integre transcrição em seu fluxo de trabalho de codificação.
Quando usar VibeVoice-ASR vs Whisper
| Caso de uso | Melhor opção | Por quê |
|---|---|---|
| Reuniões longas (30-60 min) | VibeVoice-ASR | Processamento de 60 min em uma única passagem, diarização |
| Entrevistas com múltiplos locutores | VibeVoice-ASR | Diarização integrada |
| Podcasts com carimbos de data/hora | VibeVoice-ASR | Saída estruturada |
| Conteúdo multilíngue (50+ idiomas) | VibeVoice-ASR | Amplo suporte a idiomas |
| Clipes curtos em ambientes ruidosos | Whisper | Melhor robustez a ruído |
| Edge/mobile | Whisper | Modelos menores, mais dispositivos suportados |
| Idiomas não-Inglês (especializados) | Whisper | Ajuste multilíngue mais maduro |
Testando APIs de IA de voz com Apidog
O Apidog facilita o teste e depuração de integrações de IA de voz.
Testar o endpoint TTS
- Crie uma requisição POST no Apidog para seu endpoint FastAPI
- Corpo compatível com OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Testar a síntese de fala com entonação e ritmo adequados.",
"voice": "alice",
"response_format": "wav"
}
- Envie a requisição e verifique se a resposta inclui
audio/wav - Salve o arquivo WAV e revise a qualidade
Testar o endpoint ASR
- Envie uma requisição POST com
multipart/form-data - Anexe o arquivo de áudio
- Verifique se a resposta inclui IDs de locutor, timestamps e texto
Validar contratos de API de áudio
O Apidog lida com:
- Upload de arquivos binários (ASR)
- Corpo JSON (TTS)
- Validação de resposta estruturada
- Variáveis de ambiente para troca de endpoints
Baixe o Apidog para testar suas integrações antes de ir para produção.
Segurança e uso responsável
A Microsoft implementou as seguintes salvaguardas:
- Aviso sonoro de IA: Todo áudio inclui "Este segmento foi gerado por IA"
- Marca d'água imperceptível: Permite verificação por terceiros
- Registro de inferência: Logs com hash para detectar abuso
- Licença MIT: Uso comercial permitido, mas não recomendado para produção sem testes
O que é permitido
- Pesquisa e uso acadêmico
- Prototipagem e testes internos
- Podcast com divulgação de IA
- Acessibilidade (TTS para deficientes visuais)
O que não é permitido
- Falsa identidade de voz sem consentimento
- Deepfakes ou apresentar áudio de IA como humano genuíno
- Conversão de voz em tempo real para deepfakes ao vivo
- Geração de áudio não-fala (música, efeitos)
Limitações a serem observadas
TTS só suporta inglês e chinês. Outros idiomas geram saída ininteligível. ASR cobre 50+ idiomas.
ASR exige hardware robusto. Mais de 24 GB VRAM (A100/H100). TTS roda em placas consumidoras (7-8 GB VRAM).
Sem tratamento para fala sobreposta. TTS não modela interrupções; diálogo é sempre por turnos.
Vieses do modelo. Ambos herdam vieses do Qwen2.5 e podem produzir saídas inesperadas.
Software de pesquisa. Não pronto para produção; espere limitações e erros em casos extremos.
Implantando VibeVoice-ASR no Azure AI Foundry
Para evitar a gestão de infraestrutura de GPU, utilize o VibeVoice-ASR no Azure AI Foundry. Você terá um endpoint HTTPS gerenciado que aceita áudio e retorna transcrição estruturada.
A plataforma cuida de escalonamento, updates e manutenção. Para testar, configure a URL e autenticação no Apidog e envie arquivos de áudio de exemplo.
Comunidade e ecossistema
A comunidade VibeVoice é ativa:
- 62.630+ downloads mensais no HuggingFace (1.5B)
- 2.280+ curtidas no HuggingFace
- 79+ HuggingFace Spaces rodando o modelo
- 12 variantes ajustadas pela comunidade
- 4 versões quantizadas para VRAM reduzida
-
Fork ativo:
vibevoice-community/VibeVoice
Projetos comunitários:
- VibeVoice-FastAPI: wrapper REST, suporte Docker
- VibeVoice MCP Server: integração com ferramentas de IA
- Apple Silicon: scripts para Macs M1/M2
- Modelos quantizados: GGUF e outros formatos
FAQ
VibeVoice é gratuito para usar?
Sim. Todos os modelos são licenciados sob MIT. Uso comercial e pessoal é permitido. Azure AI Foundry tem preços próprios para inferência em nuvem.
VibeVoice pode rodar em Macs Apple Silicon?
Sim, via scripts comunitários. Verifique as discussões no HuggingFace. O desempenho é menor que CUDA, mas funcional.
Como o VibeVoice se compara ao ElevenLabs?
VibeVoice roda localmente sem custos ou vazamento de dados. ElevenLabs tem melhor qualidade, mais vozes e facilidade de uso, mas requer assinatura e nuvem. Para privacidade e offline, VibeVoice é melhor; para produção, ElevenLabs se destaca.
Por que o repositório GitHub foi temporariamente desativado?
Devido a abuso de clonagem de voz (deepfakes). Microsoft adicionou salvaguardas e reabriu o repositório. O fork da comunidade manteve o desenvolvimento.
Posso ajustar o VibeVoice com vozes personalizadas?
Sim. Há 12 variantes ajustadas no HuggingFace. São necessários 30-60s de áudio WAV mono 24kHz e GPU para o ajuste.
Quais formatos de áudio o VibeVoice gera?
WAV a 24.000 Hz mono. Converta para outros formatos com ffmpeg.
Posso usar VibeVoice-ASR como substituto do Whisper?
Sim, para áudio longo com identificação de locutor. Whisper requer ferramentas externas para diarização e tem dificuldades acima de 30 min. Para clipes curtos/edge, Whisper ainda é melhor.
VibeVoice suporta chat de voz em tempo real?
VibeVoice-Realtime-0.5B faz streaming de texto com latência ~300ms, suficiente para aplicações quase em tempo real, mas não para conversação full-duplex. Para isso, use GPT-Realtime do Azure OpenAI ou serviços similares.






Top comments (0)