TL;DR
VibeVoice ist Microsofts Open-Source-Sprach-KI-Familie mit drei Modellen: VibeVoice-1.5B für Text-zu-Sprache (TTS), VibeVoice-Realtime-0.5B für Streaming-TTS und VibeVoice-ASR für Spracherkennung. Sie sind MIT-lizenziert und laufen lokal. In diesem Leitfaden erhältst du konkrete Anleitungen zu Installation, Nutzung und API-Integration.
Probiere Apidog noch heute aus
Einleitung
Microsoft veröffentlichte VibeVoice Anfang 2026 als Open-Source-Sprach-KI-Framework. Das Framework enthält Modelle für Text-zu-Sprache und automatische Spracherkennung, die komplett lokal ohne Cloud-Anbindung laufen.
Die wichtigsten Modelle:
- VibeVoice-1.5B: Konversations-TTS, bis zu 90 Minuten und 4 Sprecher.
- VibeVoice-Realtime-0.5B: Streaming-TTS mit niedriger Latenz (~300 ms).
- VibeVoice-ASR: Automatische Spracherkennung, 60 Minuten Audio, >50 Sprachen, strukturierte Ausgabe.
Nach Veröffentlichung gab es Missbrauchsfälle (Stimmklonung). Microsoft reagierte mit Sicherheitsmaßnahmen: hörbare KI-Haftungsausschlüsse und Wasserzeichen. VibeVoice-ASR ist auch über Azure AI Foundry als Cloud-API verfügbar. Die TTS-Modelle bleiben MIT-lizenziert und forschungsorientiert.
Im Folgenden findest du Schritt-für-Schritt-Anleitungen für Installation, Text-zu-Sprache, Spracherkennung, API-Integration und wie du Sprach-KI-Endpunkte direkt mit Apidog testest.
Wie VibeVoice funktioniert: Architekturübersicht
Der Tokenizer-Durchbruch
VibeVoice nutzt kontinuierliche Sprachtokenizer mit extrem niedriger 7,5 Hz Framerate (statt 50-100 Hz wie üblich). So können sehr lange Sequenzen (bis zu 90 Minuten Audio) verarbeitet werden.
Zwei Tokenizer kommen zum Einsatz:
- Akustischer Tokenizer: Sigma-VAE mit ~340 Mio. Parametern, reduziert 24kHz-Audio um das 3.200-fache.
- Semantischer Tokenizer: Erfasst sprachliche Bedeutung, Architektur wie der akustische Tokenizer.
Next-Token-Diffusion
Das Modell kombiniert ein LLM (Qwen2.5-1.5B) mit einem leichten Diffusions-Head (~123 Mio. Parameter) für hochwertige Audioausgabe per DDPM.
Gesamt: 3B Parameter inkl. Tokenizer & Diffusion.
Trainingsansatz
VibeVoice verwendet Curriculum Learning: Training auf zunehmend langen Sequenzen (4K, 16K, 32K, 64K Token). Die Tokenizer bleiben eingefroren; LLM & Diffusion-Head werden optimiert.
VibeVoice-Modellspezifikationen
| Modell | Parameter | Zweck | Maximale Länge | Sprachen | Lizenz |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (gesamt) | Text-zu-Sprache | 90 Minuten | Englisch, Chinesisch | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | Streaming-TTS | Langform | Englisch, Chinesisch | MIT |
| VibeVoice-ASR | ~9B | Spracherkennung | 60 Minuten | Über 50 Sprachen | MIT |
VibeVoice-1.5B (TTS)
| Spezifikation | Wert |
|---|---|
| LLM-Basis | Qwen2.5-1.5B |
| Kontextlänge | 64K Token |
| Max. Sprecher | 4 gleichzeitig |
| Audioausgabe | 24kHz WAV Mono |
| Tensor-Typ | BF16 |
| Format | Safetensors |
| HuggingFace-Downloads | 62.630/Monat |
| Community-Forks | 12 feinabgestimmte Varianten |
VibeVoice-ASR
| Spezifikation | Wert |
|---|---|
| Architektur-Basis | Qwen2.5 |
| Parameter | ~9B |
| Audioverarbeitung | Bis zu 60 Minuten in einem Durchgang |
| Framerate | 7.5 Hz |
| Durchschnittliche WER | 7.77% (über 8 englische Datensätze) |
| LibriSpeech WER | 2.20% |
| TED-LIUM WER | 2.57% |
| Sprachen | Über 50 |
| Ausgabe | Strukturiert (Wer + Wann + Was) |
| Formate | WAV, FLAC, MP3 (16kHz+) |
Installation und Einrichtung
Voraussetzungen
- Python 3.8+
- NVIDIA GPU mit CUDA
- Mind. 7-8 GB VRAM (TTS), 24 GB+ VRAM (ASR, A100/H100 empfohlen)
- Mind. 32 GB RAM (64 GB für ASR empfohlen)
- CUDA 11.8+ (besser 12.0+)
VibeVoice TTS installieren
# Repo klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Abhängigkeiten installieren
pip install -r requirements.txt
Modelle werden beim ersten Start automatisch geladen. Optional vorab laden:
from huggingface_hub import snapshot_download
# 1.5B TTS-Modell herunterladen
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Installation via pip (Community-Paket)
pip install vibevoice
Für ASR installieren
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Alternativ: Bereitstellung via Azure AI Foundry für Cloud-Inferenz.
Spracherzeugung mit VibeVoice-1.5B
Generierung eines einzelnen Sprechers
Erstelle eine Textdatei script.txt:
Alice: Willkommen zum Apidog Entwickler-Podcast. Heute behandeln wir API-Teststrategien für 2026.
Starte die Inferenz:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
Das .wav-File findest du im Ordner outputs/.
Podcast-Generierung mit mehreren Sprechern
Bis zu 4 Sprecher pro Skript:
Alice: Willkommen zurück zur Show. Heute haben wir zwei API-Experten bei uns.
Bob: Danke für die Einladung. Ich habe die letzten fünf Jahre an REST-API-Designmustern gearbeitet.
Carol: Und ich konzentriere mich auf die GraphQL-Leistungsoptimierung. Freut mich, hier zu sein.
Alice: Beginnen wir mit der Debatte, die jeder hören möchte. REST versus GraphQL für Mikroservices.
Bob: REST gibt Ihnen klare Ressourcengrenzen. Jeder Endpunkt ist einer bestimmten Ressource zugeordnet.
Carol: GraphQL bietet Ihnen Flexibilität. Ein Endpunkt, und der Client entscheidet, welche Daten er benötigt.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Das Modell hält die Stimmen der Sprecher über die gesamte Aufnahme konsistent.
Stimmklonung (Zero-Shot)
Vorbereitung Referenz-Audio:
- WAV (mono), 24.000 Hz, 30-60 Sek. klare Sprache
Konvertiere existierendes Audio:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Starte die Gradio-Demo für Stimmklonung:
python demo/gradio_demo.py
Web-UI unter http://127.0.0.1:7860 – Audio hochladen, Stimme wählen, Text generieren.
Streaming mit VibeVoice-Realtime-0.5B
Für niedrige Latenz:
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Das Realtime-Modell ist schneller, aber mit geringerer Wiedergabetreue. Für vorab generierte Inhalte: 1.5B verwenden.
VibeVoice mit Python verwenden
Pipeline-API
from transformers import pipeline
from huggingface_hub import snapshot_download
# Modell laden
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Multi-Sprecher-Skript
script = [
{"role": "Alice", "content": "Wie gehen Sie mit API-Versionierung um?"},
{"role": "Bob", "content": "Wir verwenden URL-Pfad-Versionierung. v1, v2 und so weiter."},
]
input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
FastAPI-Wrapper für die Produktion
Community-Wrapper stellt eine OpenAI-kompatible TTS-API bereit:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
API-Aufruf:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Ihre API-Dokumentation sollte eine Konversation sein, keine Monolog.",
"voice": "alice"
}' \
--output speech.wav
Du kannst diesen OpenAI-kompatiblen Endpunkt direkt in Apidog testen – importiere den Endpunkt, konfiguriere den Body, prüfe die Audioausgabe und validiere deine Integration ohne eigenen Code.
VibeVoice-ASR für die Spracherkennung verwenden
Grundlegende Transkription
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Strukturiertes Ausgabeformat
VibeVoice-ASR gibt strukturierte Segmente zurück:
- Wer: Sprecher (Speaker 1, Speaker 2 usw.)
- Wann: Start-/Endzeit
- Was: Text
Beispiel:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR als MCP-Server
Für Integration in Coding-Agents (Claude Code, Cursor etc.):
pip install vibevoice-mcp-server
vibevoice-mcp serve
So kann dein Coding-Agent Audio direkt transkribieren und im Workflow nutzen.
Wann VibeVoice-ASR vs. Whisper?
| Anwendungsfall | Beste Wahl | Warum |
|---|---|---|
| Lange Meetings (30-60 Min.) | VibeVoice-ASR | 60-Minuten-Verarbeitung, Sprecherkennung |
| Interviews mit mehreren Sprechern | VibeVoice-ASR | Integrierte Diarisierung |
| Podcasts mit Zeitstempeln | VibeVoice-ASR | Strukturierte Wer/Wann/Was-Ausgabe |
| Mehrsprachige Inhalte (>50) | VibeVoice-ASR | Breite Sprachunterstützung |
| Kurze, laute Clips | Whisper | Bessere Rauschrobustheit |
| Edge/Mobile-Bereitstellung | Whisper | Kleinere Modelle, breitere Geräteunterstützung |
| Nicht-englische Sprachen (spez.) | Whisper | Ausgereifte Feinabstimmung |
Testen von Sprach-KI-APIs mit Apidog
Egal ob du den VibeVoice-FastAPI-Wrapper, Azure AI Foundry oder deine eigene API verwendest: Apidog hilft beim Testen und Debuggen.
TTS-Endpunkt testen
- Neue POST-Anfrage in Apidog auf deinen FastAPI-Server.
- Body im OpenAI-kompatiblen Format:
{
"model": "vibevoice-1.5b",
"input": "Testsprachsynthese mit der richtigen Intonation und Sprechgeschwindigkeit.",
"voice": "alice",
"response_format": "wav"
}
- Sende die Anfrage und prüfe, ob die Antwort den Content-Type
audio/waventhält. - Speichere die Antwort als WAV zur Qualitätskontrolle.
ASR-Endpunkt testen
- POST-Anfrage mit
multipart/form-data - Audiodatei als Formularfeld anhängen
- Prüfe, ob das strukturierte JSON Sprecher, Zeitstempel und Text enthält.
Audio-API-Verträge validieren
Apidog verarbeitet:
- Binäre Uploads (ASR)
- JSON-Body (TTS)
- Antwortvalidierung für Transkripte
- Umgebungsvariablen für lokale/Cloud-Endpunkte
Nutze Apidog, um Sprach-KI-Integrationen vor der Produktion zu testen.
Sicherheit und verantwortungsvolle Nutzung
Microsoft hat Schutzmaßnahmen eingeführt:
- Hörbarer KI-Haftungsausschluss: Jeder Audio-Output enthält eine automatische KI-Ansage.
- Unmerkliches Wasserzeichen: Herkunftsüberprüfung für Dritte.
- Inferenz-Protokollierung: Hashbasierte Logs für Missbrauchserkennung.
- MIT-Lizenz: Kommerzielle Nutzung erlaubt, aber produktive Nutzung ohne weitere Tests nicht empfohlen.
Erlaubte Nutzung
- Forschung, Lehre, internes Prototyping
- Podcasts mit KI-Offenlegung
- Barrierefreiheit (TTS für Sehbehinderte)
Nicht erlaubt
- Stimmimitation ohne Zustimmung
- Deepfakes, Präsentation als echte Aufnahme
- Live-Deepfake-Stimmenkonvertierung
- Nicht-Sprach-Audio (Musik, SFX)
Einschränkungen, die zu beachten sind
- TTS-Sprachunterstützung limitiert: Nur Englisch und Chinesisch (1.5B). ASR deckt >50 Sprachen ab.
- Hohe Hardware-Anforderungen für ASR: 24 GB+ VRAM für ASR, TTS läuft auf Consumer-GPUs.
- Keine Überlappung von Sprecher-Audio: Rundenbasierter Dialog, kein Übersprechen.
- Modellverzerrungen: Qwen2.5-Basis kann zu Vorurteilen führen.
- Software auf Forschungsniveau: Nicht produktionsreif, Fehler bei Randfällen möglich.
VibeVoice-ASR auf Azure AI Foundry bereitstellen
Für Teams ohne eigene GPU-Infrastruktur: Microsoft bietet VibeVoice-ASR als Managed API über Azure AI Foundry an. Vorteil:
- Skalierung, Wartung und Updates durch Azure
- HTTPS-Endpunkt mit strukturierter Transkriptausgabe
Für Testzwecke einfach Endpunkt-URL und Auth-Header in Apidog eintragen und Beispiel-Audio transkribieren.
Community und Ökosystem
VibeVoice hat eine starke Entwickler-Community:
- 62.630+ HuggingFace-Downloads/Monat (1.5B)
- 2.280+ Likes auf HuggingFace
- 79+ HuggingFace Spaces
- 12 feinabgestimmte Varianten
- 4 quantisierte Versionen
-
Community-Fork:
vibevoice-community/VibeVoice
Wichtige Projekte:
- VibeVoice-FastAPI: REST-API-Wrapper mit Docker
- VibeVoice MCP Server: Integration für Coding-Tools
- Apple Silicon Support: Community-Skripte für M1/M2/M3
- Quantisierte Modelle: GGUF & Co. für weniger VRAM
FAQ
Ist VibeVoice kostenlos nutzbar?
Ja, alle Modelle sind MIT-lizenziert (TTS, Realtime, ASR). Nur Azure AI Foundry ist kostenpflichtig.
Kann VibeVoice auf Apple Silicon laufen?
Mit Community-Skripten läuft die Inferenz auch auf M1/M2/M3, aber langsamer als auf CUDA-GPUs.
Wie vergleicht sich VibeVoice mit ElevenLabs?
VibeVoice läuft lokal, ohne Cloud oder API-Kosten. ElevenLabs bietet mehr Stimmen/Qualität, ist aber kostenpflichtig und cloudbasiert. Für Datenschutz oder Offline: VibeVoice. Für höchste Qualität: ElevenLabs.
Warum wurde das GitHub-Repo deaktiviert?
Missbrauch (Deepfake/Stimmenklon). Microsoft baute Schutzmechanismen ein und reaktivierte das Repo. Die Community hielt das Projekt in einem Fork aktiv.
Kann ich eigene Stimmen feinabstimmen?
Ja, mit 30–60 Sek. klarer Sprachprobe (WAV, 24kHz Mono) und GPU-Ressourcen möglich.
Welche Audioformate gibt VibeVoice aus?
Standard: 24kHz WAV Mono. Mit ffmpeg konvertierbar in MP3, OGG, FLAC usw.
Kann ich VibeVoice-ASR als Whisper-Ersatz nutzen?
Für lange Audios mit Sprecherkennung: ja. Für kurze, laute Clips oder Edge: Whisper ist besser.
Unterstützt VibeVoice Echtzeit-Sprachchats?
VibeVoice-Realtime-0.5B ermöglicht Streaming mit ~300ms Latenz (erster Block). Für Duplex-Chats sind Azure OpenAI GPT-Realtime o.ä. besser geeignet.






Top comments (0)