Tobias Hoffmann

Posted on Apr 2 • Originally published at apidog.com

Microsoft VibeVoice Nedir? Açık Kaynak Sesli Yapay Zeka Modelleri Nasıl Kullanılır?

Kısaca

VibeVoice, Microsoft'un üç modelden oluşan açık kaynak sesli yapay zeka ailesidir: Metinden konuşmaya (90 dakikaya kadar, 4 konuşmacı için) VibeVoice-1.5B, gerçek zamanlı TTS akışı için VibeVoice-Realtime-0.5B ve konuşma tanıma için VibeVoice-ASR (60 dakika ses, 50+ dil, %7.77 WER). Tüm modeller MIT lisanslıdır ve yerel olarak çalıştırılabilir. Bu rehberde, kurulum, kullanım ve API entegrasyonu pratik olarak anlatılmaktadır.

Giriş

Microsoft, 2026'nın başlarında VibeVoice'u açık kaynak bir sesli yapay zeka çerçevesi olarak yayımladı. Hem metinden konuşmaya (TTS) hem de konuşma tanıma (ASR) modelleri içerir; ve tamamı bulut bağımlılığı olmadan yerel olarak çalıştırılabilir.

Çerçevenin üç modeli var:

VibeVoice-1.5B: 4 konuşmacıya kadar, 90 dakikalık çoklu konuşmacı konuşma sentezi.
VibeVoice-Realtime-0.5B: ~300ms ilk gecikme ile gerçek zamanlı TTS akışı.
VibeVoice-ASR: 50+ dil, konuşmacı tanımlama, zaman damgaları ile 60 dakikalık konuşma tanıma.

TTS modelleri yayınlandıktan sonra güvenlik ve kötüye kullanım tartışmaları nedeniyle kısa süreliğine devre dışı bırakıldı. Şu an ek güvenlik önlemleri (duyulabilir AI sorumluluk reddi, filigranlama) ile aktif.

VibeVoice-ASR, Azure AI Foundry'de bulut dağıtımı için mevcut. TTS modelleri araştırma odaklı kalıyor.

Bu rehberde, kurulum, TTS üretimi, ASR kullanımı, API entegrasyonu ve Apidog ile sesli yapay zeka uç noktası testleri anlatılmaktadır.

VibeVoice nasıl çalışır: Mimariye Genel Bakış

Tokenlaştırıcı Atılımı

VibeVoice'un temel farkı, ultra düşük kare hızı (7.5 Hz) ile çalışan sürekli konuşma tokenlaştırıcılarıdır. Çoğu modelin işlediğinden 7-13 kat daha düşük kare hızı, 90 dakikalık konuşmaların bağlamdan kopmadan işlenmesini sağlar.

Sistemde iki ana tokenlaştırıcı bulunur:

Akustik Tokenlaştırıcı: 24kHz giriş sesini 3200 kat aşağı örnekleyen sigma-VAE (~340M parametre).
Semantik Tokenlaştırıcı: Dilsel anlamı yakalamak için ASR proxy görevi ile eğitilmiş.

Sonraki-token Difüzyonu

Model, bir LLM (Qwen2.5-1.5B) ile hafif bir difüzyon başlığını (~123M parametre) birleştirir. LLM metinsel bağlamı, difüzyon başlığı DDPM ile akustik detayları üretir.

Toplam parametre: 3B.

Eğitim Yaklaşımı

VibeVoice, giderek uzunlaşan dizilerde (4K, 16K, 32K, 64K token) müfredat öğrenimiyle eğitildi. Tokenlaştırıcılar sabitken yalnızca LLM ve difüzyon başlığı güncellenir.

VibeVoice Model Özellikleri

Model	Parametreler	Amaç	Maks. uzunluk	Diller	Lisans
VibeVoice-1.5B	3B (toplam)	Metinden konuşmaya	90 dakika	İngilizce, Çince	MIT
VibeVoice-Realtime-0.5B	~0.5B	Gerçek zamanlı TTS	Uzun biçimli	İngilizce, Çince	MIT
VibeVoice-ASR	~9B	Konuşma tanıma	60 dakika	50+ dil	MIT

VibeVoice-1.5B (Metinden Konuşmaya)

Özellik	Değer
LLM tabanı	Qwen2.5-1.5B
Bağlam uzunluğu	64K token
Maks. konuşmacı	4 eşzamanlı
Ses çıkışı	24kHz WAV mono
Tensör tipi	BF16
Biçim	Safetensors
HuggingFace ind.	62,630/ay
Topluluk fork	12 ince ayarlı varyant

VibeVoice-ASR

Özellik	Değer
Mimari taban	Qwen2.5
Parametreler	~9B
Ses işleme	Tek geçişte 60 dk
Kare hızı	7.5 Hz
Ortalama WER	%7.77 (8 İngilizce veri kümesi)
LibriSpeech WER	%2.20
TED-LIUM WER	%2.57
Diller	50+
Çıktı	Yapılandırılmış
Desteklenen ses	16kHz+ WAV, FLAC, MP3

Kurulum ve Yapılandırma

Önkoşullar

Python 3.8+
CUDA destekli NVIDIA GPU
TTS için min. 7-8 GB VRAM
ASR için min. 24 GB VRAM (A100/H100 önerilir)
Min. 32 GB RAM (ASR için 64 GB önerilir)
CUDA 11.8+ (12.0+ önerilir)

VibeVoice TTS'i Yükleyin

# Depoyu klonlayın
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Bağımlılıkları yükleyin
pip install -r requirements.txt

Modeller ilk çalıştırmada HuggingFace'den otomatik indirilir. Önceden indirmek için:

from huggingface_hub import snapshot_download

# 1.5B TTS modelini indir
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

pip ile Topluluk Paketini Yükleyin

pip install vibevoice

ASR için Kurulum

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Veya bulutta yönetilen çıkarım için Azure AI Foundry kullanın.

VibeVoice-1.5B ile Konuşma Üretimi

Tek Konuşmacılı Üretim

Bir metin dosyası oluşturun:

Alice: Apidog geliştirici podcast'ine hoş geldiniz. Bugün 2026 için API test stratejilerini ele alıyoruz.

Çıkarım çalıştırın:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Çıktı, outputs/ klasörüne .wav olarak kaydedilir.

Çok Konuşmacılı Podcast Üretimi

4 konuşmacıya kadar desteklidir. Script örneği:

Alice: Programa tekrar hoş geldiniz. Bugün bize iki API uzmanı katılıyor.
Bob: Beni davet ettiğiniz için teşekkürler. Son beş yıldır REST API tasarım desenleri üzerinde çalışıyorum.
Carol: Ben de GraphQL performans optimizasyonuna odaklanıyorum. Burada olmaktan mutluluk duyuyorum.
Alice: Herkesin duymak istediği tartışmayla başlayalım. Mikro hizmetler için REST'e karşı GraphQL.
Bob: REST size net kaynak sınırları verir. Her uç nokta belirli bir kaynağa eşleşir.
Carol: GraphQL size esneklik verir. Tek bir uç nokta ve istemci hangi verilere ihtiyacı olduğuna karar verir.

Komut:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Ses Klonlama (Sıfır Atım)

Referans ses için gereksinimler:

WAV (mono), 24.000 Hz, 30-60 sn net konuşma

Dönüştürme:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Gradio demo ile klonlama arayüzü:

python demo/gradio_demo.py

Web arayüzü: http://127.0.0.1:7860

VibeVoice-Realtime-0.5B ile Akış

Düşük gecikmeli ses için:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Gerçek zamanlı model daha hızlı fakat kalite bir miktar düşer. Etkileşimli uygulamalar için idealdir.

VibeVoice'u Python ile Kullanma

Pipeline API'si

from transformers import pipeline
from huggingface_hub import snapshot_download

# Model indir
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Pipeline yükle
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Çok konuşmacılı senaryo hazırla
script = [
    {"role": "Alice", "content": "API sürümlemeyi nasıl ele alıyorsunuz?"},
    {"role": "Bob", "content": "URL yolu sürümlemesini kullanıyoruz. v1, v2 vb."},
]

# Sohbet şablonu uygula
input_data = pipe.processor.apply_chat_template(script)

# Ses oluştur
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Üretim için FastAPI Sarıcısı

Topluluk tarafından geliştirilen FastAPI sarıcısı ile OpenAI uyumlu TTS API'si sunabilirsiniz:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

API isteği örneği:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "API dokümantasyonunuz bir monolog değil, bir sohbet olmalı.",
    "voice": "alice"
  }' \
  --output speech.wav

Bu OpenAI uyumlu uç nokta ile Apidog üzerinden VibeVoice API'lerini kolayca test edebilirsiniz.

Konuşma Tanıma için VibeVoice-ASR Kullanma

Temel Transkripsiyon

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Yapılandırılmış Çıktı Formatı

Her segmentte:

Kim: Konuşmacı kimliği
Ne Zaman: Başlangıç/bitiş damgaları
Ne: Yazıya dökülen metin

Örnek çıktı:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Yeni sürüm için API uç noktalarını inceleyelim."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Faturalandırma modülü için üç yeni uç nokta ekledim."
    }
  ]
}

MCP Sunucusu Olarak ASR

Kodlama araçlarına doğrudan bağlamak için:

pip install vibevoice-mcp-server
vibevoice-mcp serve

Toplantı, sesli not veya kayıtlarınızı kodlama aracı iş akışına entegre edebilirsiniz.

VibeVoice-ASR'ı Whisper'a Karşı Ne Zaman Kullanmalı

Kullanım durumu	En iyi seçim	Neden
Uzun toplantılar (30-60 dk)	VibeVoice-ASR	60 dk tek geçiş, konuşmacı kimliği
Çoklu konuşmacı röportajlar	VibeVoice-ASR	Dahili diarizasyon
Zaman damgalı podcast	VibeVoice-ASR	Yapılandırılmış çıktılar
Çok dilli içerik (50+ dil)	VibeVoice-ASR	Geniş dil desteği
Gürültülü kısa klipler	Whisper	Daha iyi gürültü sağlamlığı
Mobil/edge dağıtım	Whisper	Daha küçük model, daha fazla cihaz desteği
Uzmanlaşmış İngilizce dışı diller	Whisper	Daha olgun çok dilli ince ayar

Apidog ile Sesli Yapay Zeka API'lerini Test Etme

İster VibeVoice FastAPI, ister Azure AI Foundry, ister kendi API'niz olsun, Apidog ile entegrasyonlarınızı hızlıca test edin.

TTS Uç Noktasını Test Edin

Apidog'da VibeVoice FastAPI sunucunuza POST isteği oluşturun.

Gövdeyi OpenAI uyumlu formatta ayarlayın:

{
  "model": "vibevoice-1.5b",
  "input": "Uygun tonlama ve tempoyla konuşma sentezini test edin.",
  "voice": "alice",
  "response_format": "wav"
}

Yanıt başlıklarında audio/wav olup olmadığını doğrulayın.
Yanıtı WAV olarak kaydedip ses kalitesini dinleyin.

ASR Uç Noktasını Test Edin

multipart/form-data ile POST isteği oluşturun.
Ses dosyasını form alanı olarak ekleyin.
Yanıtta konuşmacı kimlikleri, zaman damgaları ve metni doğrulayın.

Ses API Sözleşmelerini Doğrulayın

Apidog'un istek oluşturucusu:

ASR uç noktası için dosya yüklemeleri
TTS için JSON gövde
Yapılandırılmış yanıt doğrulama
Ortam değişkenleriyle farklı uç noktalar arasında geçiş desteği

Üretim öncesi entegrasyon testlerinizi mutlaka gerçekleştirin.

Güvenlik ve Sorumlu Kullanım

Microsoft, kötüye kullanım sonrası şu önlemleri aldı:

Duyulabilir AI sorumluluk reddi: Her oluşturulan seste “Bu bölüm yapay zeka tarafından oluşturuldu” mesajı var.
Algılanamayan filigran: Oluşturulan seste gizli işaretleyiciler.
Çıkarım günlüğü: Hashlenmiş loglar ile kötüye kullanımın tespiti.
MIT Lisansı: Ticari kullanım serbest, ancak üretim için ekstra test öneriliyor.

İzin Verilenler

Araştırma, akademik kullanım
Dahili prototipleme, test
Uygun AI açıklamasıyla podcast üretimi
Erişilebilirlik uygulamaları

İzin Verilmeyenler

Açıkça rıza olmadan ses taklidi
Deepfake veya AI sesi insan kaydı gibi sunmak
Canlı deepfake için gerçek zamanlı dönüştürme
Müzik/ses efekti üretimi

Bilmeniz Gereken Sınırlamalar

TTS için dil desteği: 1.5B yalnızca İngilizce ve Çince (diğer diller anlamsız çıktı verir). ASR ise 50+ dil destekler.

ASR için donanım gereksinimi: 24GB+ VRAM (A100/H100) gerekir. TTS daha düşük VRAM ile çalışır.

Çakışan konuşma modellemesi yoktur: Tüm diyaloglar sıra tabanlıdır.

Model önyargıları: Qwen2.5 tabanından miras alınır.

Araştırma düzeyi yazılım: Üretim öncesi ek test gerektirir.

VibeVoice-ASR'ı Azure AI Foundry'ye Dağıtma

GPU yönetmek istemeyenler için VibeVoice-ASR, Azure AI Foundry ile sunulur. HTTPS API uç noktası sağlar ve Kim/Ne Zaman/Ne formatında çıktı döner.

Azure dağıtımı:

Otomatik ölçekleme
SLA güvencesi
Donanım yönetimi gerektirmez

Kendi uygulamanızdan önce, Apidog ile HTTPS uç noktasını test edin.

Topluluk ve Ekosistem

VibeVoice'ın aktif bir topluluğu var:

1.5B modeli için ayda 62.630+ HuggingFace indirme
2.280+ beğeni ve 79+ HuggingFace Alanı
12 ince ayarlı varyant
4 nicemlenmiş sürüm (düşük VRAM için)
Topluluk fork'u: vibevoice-community/VibeVoice

Dikkate değer projeler:

VibeVoice-FastAPI: Docker ile üretim REST API
VibeVoice MCP Server: AI kodlama araçlarına entegrasyon
Apple Silicon desteği: M serisi Mac için betikler
Nicemlenmiş modeller: GGUF ve diğer formatlar

Sıkça Sorulan Sorular

VibeVoice'u kullanmak ücretsiz midir?

Evet. Tüm modeller MIT lisanslıdır. Azure AI Foundry bulut barındırma ayrı fiyatlandırılır.

VibeVoice, Apple Silicon Mac'lerde çalışır mı?

Topluluk, M serisi Mac desteği için betikler sağlamıştır. Performans CUDA'ya göre daha düşük ama çalışır.

VibeVoice, ElevenLabs ile nasıl karşılaştırılır?

VibeVoice yerel, ücretsiz ve gizlilik dostu; ElevenLabs daha kaliteli, çok sesli ve kolay kurulumlu fakat ücretli ve bulut bazlıdır.

GitHub deposu neden geçici olarak devre dışı bırakıldı?

Kötüye kullanım (deepfake/ses klonlama) nedeniyle, güvenlik eklendi ve tekrar açıldı. Topluluk fork'u kesintisiz geliştirmeye devam etti.

VibeVoice'u özel sesler üzerinde ince ayarlayabilir miyim?

Evet. 12 topluluk varyantı mevcut. 24kHz mono WAV formatında 30-60 sn ses ve GPU gereklidir.

VibeVoice hangi ses formatlarını çıkarır?

24.000 Hz mono WAV. Sonrasında ffmpeg ile istediğiniz formata dönüştürebilirsiniz.

VibeVoice-ASR'ı Whisper yerine kullanabilir miyim?

Uzun, konuşmacı kimlikli seslerde evet; kısa, gürültülü klipler veya uç dağıtımda Whisper daha uygun.

VibeVoice gerçek zamanlı sesli sohbeti destekler mi?

VibeVoice-Realtime-0.5B ~300ms gecikmeli metin akışı sağlar, fakat tam çift yönlü sesli sohbet için uygun değildir. Alternatif olarak Azure OpenAI GPT-Realtime kullanılabilir.