DEV Community

Cover image for Microsoft VibeVoice Nedir? Açık Kaynak Sesli Yapay Zeka Modelleri Nasıl Kullanılır?
Tobias Hoffmann
Tobias Hoffmann

Posted on • Originally published at apidog.com

Microsoft VibeVoice Nedir? Açık Kaynak Sesli Yapay Zeka Modelleri Nasıl Kullanılır?

Kısaca

Apidog'u bugün deneyin

VibeVoice, Microsoft'un üç modelden oluşan açık kaynak sesli yapay zeka ailesidir: Metinden konuşmaya (90 dakikaya kadar, 4 konuşmacı için) VibeVoice-1.5B, gerçek zamanlı TTS akışı için VibeVoice-Realtime-0.5B ve konuşma tanıma için VibeVoice-ASR (60 dakika ses, 50+ dil, %7.77 WER). Tüm modeller MIT lisanslıdır ve yerel olarak çalıştırılabilir. Bu rehberde, kurulum, kullanım ve API entegrasyonu pratik olarak anlatılmaktadır.

Giriş

Microsoft, 2026'nın başlarında VibeVoice'u açık kaynak bir sesli yapay zeka çerçevesi olarak yayımladı. Hem metinden konuşmaya (TTS) hem de konuşma tanıma (ASR) modelleri içerir; ve tamamı bulut bağımlılığı olmadan yerel olarak çalıştırılabilir.

Metinden konuşmaya ve konuşma tanımaya yönelik VibeVoice modelleri.

Çerçevenin üç modeli var:

  • VibeVoice-1.5B: 4 konuşmacıya kadar, 90 dakikalık çoklu konuşmacı konuşma sentezi.
  • VibeVoice-Realtime-0.5B: ~300ms ilk gecikme ile gerçek zamanlı TTS akışı.
  • VibeVoice-ASR: 50+ dil, konuşmacı tanımlama, zaman damgaları ile 60 dakikalık konuşma tanıma.

VibeVoice metinden konuşmaya akışı.

TTS modelleri yayınlandıktan sonra güvenlik ve kötüye kullanım tartışmaları nedeniyle kısa süreliğine devre dışı bırakıldı. Şu an ek güvenlik önlemleri (duyulabilir AI sorumluluk reddi, filigranlama) ile aktif.

VibeVoice-ASR, Azure AI Foundry'de bulut dağıtımı için mevcut. TTS modelleri araştırma odaklı kalıyor.

Bu rehberde, kurulum, TTS üretimi, ASR kullanımı, API entegrasyonu ve Apidog ile sesli yapay zeka uç noktası testleri anlatılmaktadır.

VibeVoice nasıl çalışır: Mimariye Genel Bakış

Tokenlaştırıcı Atılımı

VibeVoice'un temel farkı, ultra düşük kare hızı (7.5 Hz) ile çalışan sürekli konuşma tokenlaştırıcılarıdır. Çoğu modelin işlediğinden 7-13 kat daha düşük kare hızı, 90 dakikalık konuşmaların bağlamdan kopmadan işlenmesini sağlar.

VibeVoice model mimarisi.
VibeVoice tokenlaştırıcı mimarisi.

Sistemde iki ana tokenlaştırıcı bulunur:

  • Akustik Tokenlaştırıcı: 24kHz giriş sesini 3200 kat aşağı örnekleyen sigma-VAE (~340M parametre).
  • Semantik Tokenlaştırıcı: Dilsel anlamı yakalamak için ASR proxy görevi ile eğitilmiş.

Sonraki-token Difüzyonu

Model, bir LLM (Qwen2.5-1.5B) ile hafif bir difüzyon başlığını (~123M parametre) birleştirir. LLM metinsel bağlamı, difüzyon başlığı DDPM ile akustik detayları üretir.

Toplam parametre: 3B.

Eğitim Yaklaşımı

VibeVoice, giderek uzunlaşan dizilerde (4K, 16K, 32K, 64K token) müfredat öğrenimiyle eğitildi. Tokenlaştırıcılar sabitken yalnızca LLM ve difüzyon başlığı güncellenir.

VibeVoice Model Özellikleri

Model Parametreler Amaç Maks. uzunluk Diller Lisans
VibeVoice-1.5B 3B (toplam) Metinden konuşmaya 90 dakika İngilizce, Çince MIT
VibeVoice-Realtime-0.5B ~0.5B Gerçek zamanlı TTS Uzun biçimli İngilizce, Çince MIT
VibeVoice-ASR ~9B Konuşma tanıma 60 dakika 50+ dil MIT

VibeVoice-1.5B (Metinden Konuşmaya)

Özellik Değer
LLM tabanı Qwen2.5-1.5B
Bağlam uzunluğu 64K token
Maks. konuşmacı 4 eşzamanlı
Ses çıkışı 24kHz WAV mono
Tensör tipi BF16
Biçim Safetensors
HuggingFace ind. 62,630/ay
Topluluk fork 12 ince ayarlı varyant

VibeVoice-ASR

Özellik Değer
Mimari taban Qwen2.5
Parametreler ~9B
Ses işleme Tek geçişte 60 dk
Kare hızı 7.5 Hz
Ortalama WER %7.77 (8 İngilizce veri kümesi)
LibriSpeech WER %2.20
TED-LIUM WER %2.57
Diller 50+
Çıktı Yapılandırılmış
Desteklenen ses 16kHz+ WAV, FLAC, MP3

Kurulum ve Yapılandırma

Önkoşullar

  • Python 3.8+
  • CUDA destekli NVIDIA GPU
  • TTS için min. 7-8 GB VRAM
  • ASR için min. 24 GB VRAM (A100/H100 önerilir)
  • Min. 32 GB RAM (ASR için 64 GB önerilir)
  • CUDA 11.8+ (12.0+ önerilir)

VibeVoice TTS'i Yükleyin

# Depoyu klonlayın
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Bağımlılıkları yükleyin
pip install -r requirements.txt
Enter fullscreen mode Exit fullscreen mode

Modeller ilk çalıştırmada HuggingFace'den otomatik indirilir. Önceden indirmek için:

from huggingface_hub import snapshot_download

# 1.5B TTS modelini indir
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)
Enter fullscreen mode Exit fullscreen mode

pip ile Topluluk Paketini Yükleyin

pip install vibevoice
Enter fullscreen mode Exit fullscreen mode

ASR için Kurulum

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Enter fullscreen mode Exit fullscreen mode

Veya bulutta yönetilen çıkarım için Azure AI Foundry kullanın.

VibeVoice-1.5B ile Konuşma Üretimi

Tek Konuşmacılı Üretim

Bir metin dosyası oluşturun:

Alice: Apidog geliştirici podcast'ine hoş geldiniz. Bugün 2026 için API test stratejilerini ele alıyoruz.
Enter fullscreen mode Exit fullscreen mode

Çıkarım çalıştırın:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

Çıktı, outputs/ klasörüne .wav olarak kaydedilir.

Çok Konuşmacılı Podcast Üretimi

4 konuşmacıya kadar desteklidir. Script örneği:

Alice: Programa tekrar hoş geldiniz. Bugün bize iki API uzmanı katılıyor.
Bob: Beni davet ettiğiniz için teşekkürler. Son beş yıldır REST API tasarım desenleri üzerinde çalışıyorum.
Carol: Ben de GraphQL performans optimizasyonuna odaklanıyorum. Burada olmaktan mutluluk duyuyorum.
Alice: Herkesin duymak istediği tartışmayla başlayalım. Mikro hizmetler için REST'e karşı GraphQL.
Bob: REST size net kaynak sınırları verir. Her uç nokta belirli bir kaynağa eşleşir.
Carol: GraphQL size esneklik verir. Tek bir uç nokta ve istemci hangi verilere ihtiyacı olduğuna karar verir.
Enter fullscreen mode Exit fullscreen mode

Komut:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

Ses Klonlama (Sıfır Atım)

Referans ses için gereksinimler:

  • WAV (mono), 24.000 Hz, 30-60 sn net konuşma

Dönüştürme:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Enter fullscreen mode Exit fullscreen mode

Gradio demo ile klonlama arayüzü:

python demo/gradio_demo.py
Enter fullscreen mode Exit fullscreen mode

Web arayüzü: http://127.0.0.1:7860

VibeVoice-Realtime-0.5B ile Akış

Düşük gecikmeli ses için:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice
Enter fullscreen mode Exit fullscreen mode

Gerçek zamanlı model daha hızlı fakat kalite bir miktar düşer. Etkileşimli uygulamalar için idealdir.

VibeVoice'u Python ile Kullanma

Pipeline API'si

from transformers import pipeline
from huggingface_hub import snapshot_download

# Model indir
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Pipeline yükle
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Çok konuşmacılı senaryo hazırla
script = [
    {"role": "Alice", "content": "API sürümlemeyi nasıl ele alıyorsunuz?"},
    {"role": "Bob", "content": "URL yolu sürümlemesini kullanıyoruz. v1, v2 vb."},
]

# Sohbet şablonu uygula
input_data = pipe.processor.apply_chat_template(script)

# Ses oluştur
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)
Enter fullscreen mode Exit fullscreen mode

Üretim için FastAPI Sarıcısı

Topluluk tarafından geliştirilen FastAPI sarıcısı ile OpenAI uyumlu TTS API'si sunabilirsiniz:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Enter fullscreen mode Exit fullscreen mode

API isteği örneği:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "API dokümantasyonunuz bir monolog değil, bir sohbet olmalı.",
    "voice": "alice"
  }' \
  --output speech.wav
Enter fullscreen mode Exit fullscreen mode

Bu OpenAI uyumlu uç nokta ile Apidog üzerinden VibeVoice API'lerini kolayca test edebilirsiniz.

Konuşma Tanıma için VibeVoice-ASR Kullanma

Temel Transkripsiyon

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav
Enter fullscreen mode Exit fullscreen mode

Yapılandırılmış Çıktı Formatı

Her segmentte:

  • Kim: Konuşmacı kimliği
  • Ne Zaman: Başlangıç/bitiş damgaları
  • Ne: Yazıya dökülen metin

Örnek çıktı:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Yeni sürüm için API uç noktalarını inceleyelim."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Faturalandırma modülü için üç yeni uç nokta ekledim."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

MCP Sunucusu Olarak ASR

Kodlama araçlarına doğrudan bağlamak için:

pip install vibevoice-mcp-server
vibevoice-mcp serve
Enter fullscreen mode Exit fullscreen mode

Toplantı, sesli not veya kayıtlarınızı kodlama aracı iş akışına entegre edebilirsiniz.

VibeVoice-ASR'ı Whisper'a Karşı Ne Zaman Kullanmalı

Kullanım durumu En iyi seçim Neden
Uzun toplantılar (30-60 dk) VibeVoice-ASR 60 dk tek geçiş, konuşmacı kimliği
Çoklu konuşmacı röportajlar VibeVoice-ASR Dahili diarizasyon
Zaman damgalı podcast VibeVoice-ASR Yapılandırılmış çıktılar
Çok dilli içerik (50+ dil) VibeVoice-ASR Geniş dil desteği
Gürültülü kısa klipler Whisper Daha iyi gürültü sağlamlığı
Mobil/edge dağıtım Whisper Daha küçük model, daha fazla cihaz desteği
Uzmanlaşmış İngilizce dışı diller Whisper Daha olgun çok dilli ince ayar

Apidog ile Sesli Yapay Zeka API'lerini Test Etme

İster VibeVoice FastAPI, ister Azure AI Foundry, ister kendi API'niz olsun, Apidog ile entegrasyonlarınızı hızlıca test edin.

Apidog arayüzü, JSON gövdeli ve yanıt detaylı bir API test isteğini gösteriyor.

TTS Uç Noktasını Test Edin

  1. Apidog'da VibeVoice FastAPI sunucunuza POST isteği oluşturun.
  2. Gövdeyi OpenAI uyumlu formatta ayarlayın:

    {
      "model": "vibevoice-1.5b",
      "input": "Uygun tonlama ve tempoyla konuşma sentezini test edin.",
      "voice": "alice",
      "response_format": "wav"
    }
    
  3. Yanıt başlıklarında audio/wav olup olmadığını doğrulayın.

  4. Yanıtı WAV olarak kaydedip ses kalitesini dinleyin.

ASR Uç Noktasını Test Edin

  1. multipart/form-data ile POST isteği oluşturun.
  2. Ses dosyasını form alanı olarak ekleyin.
  3. Yanıtta konuşmacı kimlikleri, zaman damgaları ve metni doğrulayın.

Ses API Sözleşmelerini Doğrulayın

Apidog'un istek oluşturucusu:

  • ASR uç noktası için dosya yüklemeleri
  • TTS için JSON gövde
  • Yapılandırılmış yanıt doğrulama
  • Ortam değişkenleriyle farklı uç noktalar arasında geçiş desteği

Üretim öncesi entegrasyon testlerinizi mutlaka gerçekleştirin.

Güvenlik ve Sorumlu Kullanım

Microsoft, kötüye kullanım sonrası şu önlemleri aldı:

  • Duyulabilir AI sorumluluk reddi: Her oluşturulan seste “Bu bölüm yapay zeka tarafından oluşturuldu” mesajı var.
  • Algılanamayan filigran: Oluşturulan seste gizli işaretleyiciler.
  • Çıkarım günlüğü: Hashlenmiş loglar ile kötüye kullanımın tespiti.
  • MIT Lisansı: Ticari kullanım serbest, ancak üretim için ekstra test öneriliyor.

İzin Verilenler

  • Araştırma, akademik kullanım
  • Dahili prototipleme, test
  • Uygun AI açıklamasıyla podcast üretimi
  • Erişilebilirlik uygulamaları

İzin Verilmeyenler

  • Açıkça rıza olmadan ses taklidi
  • Deepfake veya AI sesi insan kaydı gibi sunmak
  • Canlı deepfake için gerçek zamanlı dönüştürme
  • Müzik/ses efekti üretimi

Bilmeniz Gereken Sınırlamalar

TTS için dil desteği: 1.5B yalnızca İngilizce ve Çince (diğer diller anlamsız çıktı verir). ASR ise 50+ dil destekler.

Dil sınırlamalarının illüstrasyonu.

ASR için donanım gereksinimi: 24GB+ VRAM (A100/H100) gerekir. TTS daha düşük VRAM ile çalışır.

Çakışan konuşma modellemesi yoktur: Tüm diyaloglar sıra tabanlıdır.

Model önyargıları: Qwen2.5 tabanından miras alınır.

Araştırma düzeyi yazılım: Üretim öncesi ek test gerektirir.

VibeVoice-ASR'ı Azure AI Foundry'ye Dağıtma

GPU yönetmek istemeyenler için VibeVoice-ASR, Azure AI Foundry ile sunulur. HTTPS API uç noktası sağlar ve Kim/Ne Zaman/Ne formatında çıktı döner.

Azure dağıtımı:

  • Otomatik ölçekleme
  • SLA güvencesi
  • Donanım yönetimi gerektirmez

Kendi uygulamanızdan önce, Apidog ile HTTPS uç noktasını test edin.

Topluluk ve Ekosistem

VibeVoice'ın aktif bir topluluğu var:

  • 1.5B modeli için ayda 62.630+ HuggingFace indirme
  • 2.280+ beğeni ve 79+ HuggingFace Alanı
  • 12 ince ayarlı varyant
  • 4 nicemlenmiş sürüm (düşük VRAM için)
  • Topluluk fork'u: vibevoice-community/VibeVoice

Dikkate değer projeler:

  • VibeVoice-FastAPI: Docker ile üretim REST API
  • VibeVoice MCP Server: AI kodlama araçlarına entegrasyon
  • Apple Silicon desteği: M serisi Mac için betikler
  • Nicemlenmiş modeller: GGUF ve diğer formatlar

Sıkça Sorulan Sorular

VibeVoice'u kullanmak ücretsiz midir?

Evet. Tüm modeller MIT lisanslıdır. Azure AI Foundry bulut barındırma ayrı fiyatlandırılır.

VibeVoice, Apple Silicon Mac'lerde çalışır mı?

Topluluk, M serisi Mac desteği için betikler sağlamıştır. Performans CUDA'ya göre daha düşük ama çalışır.

VibeVoice, ElevenLabs ile nasıl karşılaştırılır?

VibeVoice yerel, ücretsiz ve gizlilik dostu; ElevenLabs daha kaliteli, çok sesli ve kolay kurulumlu fakat ücretli ve bulut bazlıdır.

GitHub deposu neden geçici olarak devre dışı bırakıldı?

Kötüye kullanım (deepfake/ses klonlama) nedeniyle, güvenlik eklendi ve tekrar açıldı. Topluluk fork'u kesintisiz geliştirmeye devam etti.

VibeVoice'u özel sesler üzerinde ince ayarlayabilir miyim?

Evet. 12 topluluk varyantı mevcut. 24kHz mono WAV formatında 30-60 sn ses ve GPU gereklidir.

VibeVoice hangi ses formatlarını çıkarır?

24.000 Hz mono WAV. Sonrasında ffmpeg ile istediğiniz formata dönüştürebilirsiniz.

VibeVoice-ASR'ı Whisper yerine kullanabilir miyim?

Uzun, konuşmacı kimlikli seslerde evet; kısa, gürültülü klipler veya uç dağıtımda Whisper daha uygun.

VibeVoice gerçek zamanlı sesli sohbeti destekler mi?

VibeVoice-Realtime-0.5B ~300ms gecikmeli metin akışı sağlar, fakat tam çift yönlü sesli sohbet için uygun değildir. Alternatif olarak Azure OpenAI GPT-Realtime kullanılabilir.

Top comments (0)