Kısaca
VibeVoice, Microsoft'un üç modelden oluşan açık kaynak sesli yapay zeka ailesidir: Metinden konuşmaya (90 dakikaya kadar, 4 konuşmacı için) VibeVoice-1.5B, gerçek zamanlı TTS akışı için VibeVoice-Realtime-0.5B ve konuşma tanıma için VibeVoice-ASR (60 dakika ses, 50+ dil, %7.77 WER). Tüm modeller MIT lisanslıdır ve yerel olarak çalıştırılabilir. Bu rehberde, kurulum, kullanım ve API entegrasyonu pratik olarak anlatılmaktadır.
Giriş
Microsoft, 2026'nın başlarında VibeVoice'u açık kaynak bir sesli yapay zeka çerçevesi olarak yayımladı. Hem metinden konuşmaya (TTS) hem de konuşma tanıma (ASR) modelleri içerir; ve tamamı bulut bağımlılığı olmadan yerel olarak çalıştırılabilir.
Çerçevenin üç modeli var:
- VibeVoice-1.5B: 4 konuşmacıya kadar, 90 dakikalık çoklu konuşmacı konuşma sentezi.
- VibeVoice-Realtime-0.5B: ~300ms ilk gecikme ile gerçek zamanlı TTS akışı.
- VibeVoice-ASR: 50+ dil, konuşmacı tanımlama, zaman damgaları ile 60 dakikalık konuşma tanıma.
TTS modelleri yayınlandıktan sonra güvenlik ve kötüye kullanım tartışmaları nedeniyle kısa süreliğine devre dışı bırakıldı. Şu an ek güvenlik önlemleri (duyulabilir AI sorumluluk reddi, filigranlama) ile aktif.
VibeVoice-ASR, Azure AI Foundry'de bulut dağıtımı için mevcut. TTS modelleri araştırma odaklı kalıyor.
Bu rehberde, kurulum, TTS üretimi, ASR kullanımı, API entegrasyonu ve Apidog ile sesli yapay zeka uç noktası testleri anlatılmaktadır.
VibeVoice nasıl çalışır: Mimariye Genel Bakış
Tokenlaştırıcı Atılımı
VibeVoice'un temel farkı, ultra düşük kare hızı (7.5 Hz) ile çalışan sürekli konuşma tokenlaştırıcılarıdır. Çoğu modelin işlediğinden 7-13 kat daha düşük kare hızı, 90 dakikalık konuşmaların bağlamdan kopmadan işlenmesini sağlar.
Sistemde iki ana tokenlaştırıcı bulunur:
- Akustik Tokenlaştırıcı: 24kHz giriş sesini 3200 kat aşağı örnekleyen sigma-VAE (~340M parametre).
- Semantik Tokenlaştırıcı: Dilsel anlamı yakalamak için ASR proxy görevi ile eğitilmiş.
Sonraki-token Difüzyonu
Model, bir LLM (Qwen2.5-1.5B) ile hafif bir difüzyon başlığını (~123M parametre) birleştirir. LLM metinsel bağlamı, difüzyon başlığı DDPM ile akustik detayları üretir.
Toplam parametre: 3B.
Eğitim Yaklaşımı
VibeVoice, giderek uzunlaşan dizilerde (4K, 16K, 32K, 64K token) müfredat öğrenimiyle eğitildi. Tokenlaştırıcılar sabitken yalnızca LLM ve difüzyon başlığı güncellenir.
VibeVoice Model Özellikleri
| Model | Parametreler | Amaç | Maks. uzunluk | Diller | Lisans |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (toplam) | Metinden konuşmaya | 90 dakika | İngilizce, Çince | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | Gerçek zamanlı TTS | Uzun biçimli | İngilizce, Çince | MIT |
| VibeVoice-ASR | ~9B | Konuşma tanıma | 60 dakika | 50+ dil | MIT |
VibeVoice-1.5B (Metinden Konuşmaya)
| Özellik | Değer |
|---|---|
| LLM tabanı | Qwen2.5-1.5B |
| Bağlam uzunluğu | 64K token |
| Maks. konuşmacı | 4 eşzamanlı |
| Ses çıkışı | 24kHz WAV mono |
| Tensör tipi | BF16 |
| Biçim | Safetensors |
| HuggingFace ind. | 62,630/ay |
| Topluluk fork | 12 ince ayarlı varyant |
VibeVoice-ASR
| Özellik | Değer |
|---|---|
| Mimari taban | Qwen2.5 |
| Parametreler | ~9B |
| Ses işleme | Tek geçişte 60 dk |
| Kare hızı | 7.5 Hz |
| Ortalama WER | %7.77 (8 İngilizce veri kümesi) |
| LibriSpeech WER | %2.20 |
| TED-LIUM WER | %2.57 |
| Diller | 50+ |
| Çıktı | Yapılandırılmış |
| Desteklenen ses | 16kHz+ WAV, FLAC, MP3 |
Kurulum ve Yapılandırma
Önkoşullar
- Python 3.8+
- CUDA destekli NVIDIA GPU
- TTS için min. 7-8 GB VRAM
- ASR için min. 24 GB VRAM (A100/H100 önerilir)
- Min. 32 GB RAM (ASR için 64 GB önerilir)
- CUDA 11.8+ (12.0+ önerilir)
VibeVoice TTS'i Yükleyin
# Depoyu klonlayın
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Bağımlılıkları yükleyin
pip install -r requirements.txt
Modeller ilk çalıştırmada HuggingFace'den otomatik indirilir. Önceden indirmek için:
from huggingface_hub import snapshot_download
# 1.5B TTS modelini indir
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
pip ile Topluluk Paketini Yükleyin
pip install vibevoice
ASR için Kurulum
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Veya bulutta yönetilen çıkarım için Azure AI Foundry kullanın.
VibeVoice-1.5B ile Konuşma Üretimi
Tek Konuşmacılı Üretim
Bir metin dosyası oluşturun:
Alice: Apidog geliştirici podcast'ine hoş geldiniz. Bugün 2026 için API test stratejilerini ele alıyoruz.
Çıkarım çalıştırın:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
Çıktı, outputs/ klasörüne .wav olarak kaydedilir.
Çok Konuşmacılı Podcast Üretimi
4 konuşmacıya kadar desteklidir. Script örneği:
Alice: Programa tekrar hoş geldiniz. Bugün bize iki API uzmanı katılıyor.
Bob: Beni davet ettiğiniz için teşekkürler. Son beş yıldır REST API tasarım desenleri üzerinde çalışıyorum.
Carol: Ben de GraphQL performans optimizasyonuna odaklanıyorum. Burada olmaktan mutluluk duyuyorum.
Alice: Herkesin duymak istediği tartışmayla başlayalım. Mikro hizmetler için REST'e karşı GraphQL.
Bob: REST size net kaynak sınırları verir. Her uç nokta belirli bir kaynağa eşleşir.
Carol: GraphQL size esneklik verir. Tek bir uç nokta ve istemci hangi verilere ihtiyacı olduğuna karar verir.
Komut:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Ses Klonlama (Sıfır Atım)
Referans ses için gereksinimler:
- WAV (mono), 24.000 Hz, 30-60 sn net konuşma
Dönüştürme:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Gradio demo ile klonlama arayüzü:
python demo/gradio_demo.py
Web arayüzü: http://127.0.0.1:7860
VibeVoice-Realtime-0.5B ile Akış
Düşük gecikmeli ses için:
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Gerçek zamanlı model daha hızlı fakat kalite bir miktar düşer. Etkileşimli uygulamalar için idealdir.
VibeVoice'u Python ile Kullanma
Pipeline API'si
from transformers import pipeline
from huggingface_hub import snapshot_download
# Model indir
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Pipeline yükle
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Çok konuşmacılı senaryo hazırla
script = [
{"role": "Alice", "content": "API sürümlemeyi nasıl ele alıyorsunuz?"},
{"role": "Bob", "content": "URL yolu sürümlemesini kullanıyoruz. v1, v2 vb."},
]
# Sohbet şablonu uygula
input_data = pipe.processor.apply_chat_template(script)
# Ses oluştur
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Üretim için FastAPI Sarıcısı
Topluluk tarafından geliştirilen FastAPI sarıcısı ile OpenAI uyumlu TTS API'si sunabilirsiniz:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
API isteği örneği:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "API dokümantasyonunuz bir monolog değil, bir sohbet olmalı.",
"voice": "alice"
}' \
--output speech.wav
Bu OpenAI uyumlu uç nokta ile Apidog üzerinden VibeVoice API'lerini kolayca test edebilirsiniz.
Konuşma Tanıma için VibeVoice-ASR Kullanma
Temel Transkripsiyon
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Yapılandırılmış Çıktı Formatı
Her segmentte:
- Kim: Konuşmacı kimliği
- Ne Zaman: Başlangıç/bitiş damgaları
- Ne: Yazıya dökülen metin
Örnek çıktı:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Yeni sürüm için API uç noktalarını inceleyelim."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "Faturalandırma modülü için üç yeni uç nokta ekledim."
}
]
}
MCP Sunucusu Olarak ASR
Kodlama araçlarına doğrudan bağlamak için:
pip install vibevoice-mcp-server
vibevoice-mcp serve
Toplantı, sesli not veya kayıtlarınızı kodlama aracı iş akışına entegre edebilirsiniz.
VibeVoice-ASR'ı Whisper'a Karşı Ne Zaman Kullanmalı
| Kullanım durumu | En iyi seçim | Neden |
|---|---|---|
| Uzun toplantılar (30-60 dk) | VibeVoice-ASR | 60 dk tek geçiş, konuşmacı kimliği |
| Çoklu konuşmacı röportajlar | VibeVoice-ASR | Dahili diarizasyon |
| Zaman damgalı podcast | VibeVoice-ASR | Yapılandırılmış çıktılar |
| Çok dilli içerik (50+ dil) | VibeVoice-ASR | Geniş dil desteği |
| Gürültülü kısa klipler | Whisper | Daha iyi gürültü sağlamlığı |
| Mobil/edge dağıtım | Whisper | Daha küçük model, daha fazla cihaz desteği |
| Uzmanlaşmış İngilizce dışı diller | Whisper | Daha olgun çok dilli ince ayar |
Apidog ile Sesli Yapay Zeka API'lerini Test Etme
İster VibeVoice FastAPI, ister Azure AI Foundry, ister kendi API'niz olsun, Apidog ile entegrasyonlarınızı hızlıca test edin.
TTS Uç Noktasını Test Edin
- Apidog'da VibeVoice FastAPI sunucunuza POST isteği oluşturun.
-
Gövdeyi OpenAI uyumlu formatta ayarlayın:
{ "model": "vibevoice-1.5b", "input": "Uygun tonlama ve tempoyla konuşma sentezini test edin.", "voice": "alice", "response_format": "wav" } Yanıt başlıklarında
audio/wavolup olmadığını doğrulayın.Yanıtı WAV olarak kaydedip ses kalitesini dinleyin.
ASR Uç Noktasını Test Edin
-
multipart/form-dataile POST isteği oluşturun. - Ses dosyasını form alanı olarak ekleyin.
- Yanıtta konuşmacı kimlikleri, zaman damgaları ve metni doğrulayın.
Ses API Sözleşmelerini Doğrulayın
Apidog'un istek oluşturucusu:
- ASR uç noktası için dosya yüklemeleri
- TTS için JSON gövde
- Yapılandırılmış yanıt doğrulama
- Ortam değişkenleriyle farklı uç noktalar arasında geçiş desteği
Üretim öncesi entegrasyon testlerinizi mutlaka gerçekleştirin.
Güvenlik ve Sorumlu Kullanım
Microsoft, kötüye kullanım sonrası şu önlemleri aldı:
- Duyulabilir AI sorumluluk reddi: Her oluşturulan seste “Bu bölüm yapay zeka tarafından oluşturuldu” mesajı var.
- Algılanamayan filigran: Oluşturulan seste gizli işaretleyiciler.
- Çıkarım günlüğü: Hashlenmiş loglar ile kötüye kullanımın tespiti.
- MIT Lisansı: Ticari kullanım serbest, ancak üretim için ekstra test öneriliyor.
İzin Verilenler
- Araştırma, akademik kullanım
- Dahili prototipleme, test
- Uygun AI açıklamasıyla podcast üretimi
- Erişilebilirlik uygulamaları
İzin Verilmeyenler
- Açıkça rıza olmadan ses taklidi
- Deepfake veya AI sesi insan kaydı gibi sunmak
- Canlı deepfake için gerçek zamanlı dönüştürme
- Müzik/ses efekti üretimi
Bilmeniz Gereken Sınırlamalar
TTS için dil desteği: 1.5B yalnızca İngilizce ve Çince (diğer diller anlamsız çıktı verir). ASR ise 50+ dil destekler.
ASR için donanım gereksinimi: 24GB+ VRAM (A100/H100) gerekir. TTS daha düşük VRAM ile çalışır.
Çakışan konuşma modellemesi yoktur: Tüm diyaloglar sıra tabanlıdır.
Model önyargıları: Qwen2.5 tabanından miras alınır.
Araştırma düzeyi yazılım: Üretim öncesi ek test gerektirir.
VibeVoice-ASR'ı Azure AI Foundry'ye Dağıtma
GPU yönetmek istemeyenler için VibeVoice-ASR, Azure AI Foundry ile sunulur. HTTPS API uç noktası sağlar ve Kim/Ne Zaman/Ne formatında çıktı döner.
Azure dağıtımı:
- Otomatik ölçekleme
- SLA güvencesi
- Donanım yönetimi gerektirmez
Kendi uygulamanızdan önce, Apidog ile HTTPS uç noktasını test edin.
Topluluk ve Ekosistem
VibeVoice'ın aktif bir topluluğu var:
- 1.5B modeli için ayda 62.630+ HuggingFace indirme
- 2.280+ beğeni ve 79+ HuggingFace Alanı
- 12 ince ayarlı varyant
- 4 nicemlenmiş sürüm (düşük VRAM için)
- Topluluk fork'u:
vibevoice-community/VibeVoice
Dikkate değer projeler:
- VibeVoice-FastAPI: Docker ile üretim REST API
- VibeVoice MCP Server: AI kodlama araçlarına entegrasyon
- Apple Silicon desteği: M serisi Mac için betikler
- Nicemlenmiş modeller: GGUF ve diğer formatlar
Sıkça Sorulan Sorular
VibeVoice'u kullanmak ücretsiz midir?
Evet. Tüm modeller MIT lisanslıdır. Azure AI Foundry bulut barındırma ayrı fiyatlandırılır.
VibeVoice, Apple Silicon Mac'lerde çalışır mı?
Topluluk, M serisi Mac desteği için betikler sağlamıştır. Performans CUDA'ya göre daha düşük ama çalışır.
VibeVoice, ElevenLabs ile nasıl karşılaştırılır?
VibeVoice yerel, ücretsiz ve gizlilik dostu; ElevenLabs daha kaliteli, çok sesli ve kolay kurulumlu fakat ücretli ve bulut bazlıdır.
GitHub deposu neden geçici olarak devre dışı bırakıldı?
Kötüye kullanım (deepfake/ses klonlama) nedeniyle, güvenlik eklendi ve tekrar açıldı. Topluluk fork'u kesintisiz geliştirmeye devam etti.
VibeVoice'u özel sesler üzerinde ince ayarlayabilir miyim?
Evet. 12 topluluk varyantı mevcut. 24kHz mono WAV formatında 30-60 sn ses ve GPU gereklidir.
VibeVoice hangi ses formatlarını çıkarır?
24.000 Hz mono WAV. Sonrasında ffmpeg ile istediğiniz formata dönüştürebilirsiniz.
VibeVoice-ASR'ı Whisper yerine kullanabilir miyim?
Uzun, konuşmacı kimlikli seslerde evet; kısa, gürültülü klipler veya uç dağıtımda Whisper daha uygun.
VibeVoice gerçek zamanlı sesli sohbeti destekler mi?
VibeVoice-Realtime-0.5B ~300ms gecikmeli metin akışı sağlar, fakat tam çift yönlü sesli sohbet için uygun değildir. Alternatif olarak Azure OpenAI GPT-Realtime kullanılabilir.






Top comments (0)