Emre Demir

Posted on Apr 2 • Originally published at apidog.com

Microsoft VibeVoice: Open-Source Voice AI Modelle nutzen

TL;DR

VibeVoice ist Microsofts Open-Source-Sprach-KI-Familie mit drei Modellen: VibeVoice-1.5B für Text-zu-Sprache (TTS), VibeVoice-Realtime-0.5B für Streaming-TTS und VibeVoice-ASR für Spracherkennung. Sie sind MIT-lizenziert und laufen lokal. In diesem Leitfaden erhältst du konkrete Anleitungen zu Installation, Nutzung und API-Integration.

Probiere Apidog noch heute aus

Einleitung

Microsoft veröffentlichte VibeVoice Anfang 2026 als Open-Source-Sprach-KI-Framework. Das Framework enthält Modelle für Text-zu-Sprache und automatische Spracherkennung, die komplett lokal ohne Cloud-Anbindung laufen.

Die wichtigsten Modelle:

VibeVoice-1.5B: Konversations-TTS, bis zu 90 Minuten und 4 Sprecher.
VibeVoice-Realtime-0.5B: Streaming-TTS mit niedriger Latenz (~300 ms).
VibeVoice-ASR: Automatische Spracherkennung, 60 Minuten Audio, >50 Sprachen, strukturierte Ausgabe.

Nach Veröffentlichung gab es Missbrauchsfälle (Stimmklonung). Microsoft reagierte mit Sicherheitsmaßnahmen: hörbare KI-Haftungsausschlüsse und Wasserzeichen. VibeVoice-ASR ist auch über Azure AI Foundry als Cloud-API verfügbar. Die TTS-Modelle bleiben MIT-lizenziert und forschungsorientiert.

Im Folgenden findest du Schritt-für-Schritt-Anleitungen für Installation, Text-zu-Sprache, Spracherkennung, API-Integration und wie du Sprach-KI-Endpunkte direkt mit Apidog testest.

Wie VibeVoice funktioniert: Architekturübersicht

Der Tokenizer-Durchbruch

VibeVoice nutzt kontinuierliche Sprachtokenizer mit extrem niedriger 7,5 Hz Framerate (statt 50-100 Hz wie üblich). So können sehr lange Sequenzen (bis zu 90 Minuten Audio) verarbeitet werden.

Zwei Tokenizer kommen zum Einsatz:

Akustischer Tokenizer: Sigma-VAE mit ~340 Mio. Parametern, reduziert 24kHz-Audio um das 3.200-fache.
Semantischer Tokenizer: Erfasst sprachliche Bedeutung, Architektur wie der akustische Tokenizer.

Next-Token-Diffusion

Das Modell kombiniert ein LLM (Qwen2.5-1.5B) mit einem leichten Diffusions-Head (~123 Mio. Parameter) für hochwertige Audioausgabe per DDPM.

Gesamt: 3B Parameter inkl. Tokenizer & Diffusion.

Trainingsansatz

VibeVoice verwendet Curriculum Learning: Training auf zunehmend langen Sequenzen (4K, 16K, 32K, 64K Token). Die Tokenizer bleiben eingefroren; LLM & Diffusion-Head werden optimiert.

VibeVoice-Modellspezifikationen

Modell	Parameter	Zweck	Maximale Länge	Sprachen	Lizenz
VibeVoice-1.5B	3B (gesamt)	Text-zu-Sprache	90 Minuten	Englisch, Chinesisch	MIT
VibeVoice-Realtime-0.5B	~0.5B	Streaming-TTS	Langform	Englisch, Chinesisch	MIT
VibeVoice-ASR	~9B	Spracherkennung	60 Minuten	Über 50 Sprachen	MIT

VibeVoice-1.5B (TTS)

Spezifikation	Wert
LLM-Basis	Qwen2.5-1.5B
Kontextlänge	64K Token
Max. Sprecher	4 gleichzeitig
Audioausgabe	24kHz WAV Mono
Tensor-Typ	BF16
Format	Safetensors
HuggingFace-Downloads	62.630/Monat
Community-Forks	12 feinabgestimmte Varianten

VibeVoice-ASR

Spezifikation	Wert
Architektur-Basis	Qwen2.5
Parameter	~9B
Audioverarbeitung	Bis zu 60 Minuten in einem Durchgang
Framerate	7.5 Hz
Durchschnittliche WER	7.77% (über 8 englische Datensätze)
LibriSpeech WER	2.20%
TED-LIUM WER	2.57%
Sprachen	Über 50
Ausgabe	Strukturiert (Wer + Wann + Was)
Formate	WAV, FLAC, MP3 (16kHz+)

Installation und Einrichtung

Voraussetzungen

Python 3.8+
NVIDIA GPU mit CUDA
Mind. 7-8 GB VRAM (TTS), 24 GB+ VRAM (ASR, A100/H100 empfohlen)
Mind. 32 GB RAM (64 GB für ASR empfohlen)
CUDA 11.8+ (besser 12.0+)

VibeVoice TTS installieren

# Repo klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Abhängigkeiten installieren
pip install -r requirements.txt

Modelle werden beim ersten Start automatisch geladen. Optional vorab laden:

from huggingface_hub import snapshot_download

# 1.5B TTS-Modell herunterladen
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Installation via pip (Community-Paket)

pip install vibevoice

Für ASR installieren

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Alternativ: Bereitstellung via Azure AI Foundry für Cloud-Inferenz.

Spracherzeugung mit VibeVoice-1.5B

Generierung eines einzelnen Sprechers

Erstelle eine Textdatei script.txt:

Alice: Willkommen zum Apidog Entwickler-Podcast. Heute behandeln wir API-Teststrategien für 2026.

Starte die Inferenz:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Das .wav-File findest du im Ordner outputs/.

Podcast-Generierung mit mehreren Sprechern

Bis zu 4 Sprecher pro Skript:

Alice: Willkommen zurück zur Show. Heute haben wir zwei API-Experten bei uns.
Bob: Danke für die Einladung. Ich habe die letzten fünf Jahre an REST-API-Designmustern gearbeitet.
Carol: Und ich konzentriere mich auf die GraphQL-Leistungsoptimierung. Freut mich, hier zu sein.
Alice: Beginnen wir mit der Debatte, die jeder hören möchte. REST versus GraphQL für Mikroservices.
Bob: REST gibt Ihnen klare Ressourcengrenzen. Jeder Endpunkt ist einer bestimmten Ressource zugeordnet.
Carol: GraphQL bietet Ihnen Flexibilität. Ein Endpunkt, und der Client entscheidet, welche Daten er benötigt.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Das Modell hält die Stimmen der Sprecher über die gesamte Aufnahme konsistent.

Stimmklonung (Zero-Shot)

Vorbereitung Referenz-Audio:

WAV (mono), 24.000 Hz, 30-60 Sek. klare Sprache

Konvertiere existierendes Audio:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Starte die Gradio-Demo für Stimmklonung:

python demo/gradio_demo.py

Web-UI unter http://127.0.0.1:7860 – Audio hochladen, Stimme wählen, Text generieren.

Streaming mit VibeVoice-Realtime-0.5B

Für niedrige Latenz:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Das Realtime-Modell ist schneller, aber mit geringerer Wiedergabetreue. Für vorab generierte Inhalte: 1.5B verwenden.

VibeVoice mit Python verwenden

Pipeline-API

from transformers import pipeline
from huggingface_hub import snapshot_download

# Modell laden
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Multi-Sprecher-Skript
script = [
    {"role": "Alice", "content": "Wie gehen Sie mit API-Versionierung um?"},
    {"role": "Bob", "content": "Wir verwenden URL-Pfad-Versionierung. v1, v2 und so weiter."},
]

input_data = pipe.processor.apply_chat_template(script)

generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

FastAPI-Wrapper für die Produktion

Community-Wrapper stellt eine OpenAI-kompatible TTS-API bereit:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

API-Aufruf:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Ihre API-Dokumentation sollte eine Konversation sein, keine Monolog.",
    "voice": "alice"
  }' \
  --output speech.wav

Du kannst diesen OpenAI-kompatiblen Endpunkt direkt in Apidog testen – importiere den Endpunkt, konfiguriere den Body, prüfe die Audioausgabe und validiere deine Integration ohne eigenen Code.

VibeVoice-ASR für die Spracherkennung verwenden

Grundlegende Transkription

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Strukturiertes Ausgabeformat

VibeVoice-ASR gibt strukturierte Segmente zurück:

Wer: Sprecher (Speaker 1, Speaker 2 usw.)
Wann: Start-/Endzeit
Was: Text

Beispiel:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR als MCP-Server

Für Integration in Coding-Agents (Claude Code, Cursor etc.):

pip install vibevoice-mcp-server
vibevoice-mcp serve

So kann dein Coding-Agent Audio direkt transkribieren und im Workflow nutzen.

Wann VibeVoice-ASR vs. Whisper?

Anwendungsfall	Beste Wahl	Warum
Lange Meetings (30-60 Min.)	VibeVoice-ASR	60-Minuten-Verarbeitung, Sprecherkennung
Interviews mit mehreren Sprechern	VibeVoice-ASR	Integrierte Diarisierung
Podcasts mit Zeitstempeln	VibeVoice-ASR	Strukturierte Wer/Wann/Was-Ausgabe
Mehrsprachige Inhalte (>50)	VibeVoice-ASR	Breite Sprachunterstützung
Kurze, laute Clips	Whisper	Bessere Rauschrobustheit
Edge/Mobile-Bereitstellung	Whisper	Kleinere Modelle, breitere Geräteunterstützung
Nicht-englische Sprachen (spez.)	Whisper	Ausgereifte Feinabstimmung

Testen von Sprach-KI-APIs mit Apidog

Egal ob du den VibeVoice-FastAPI-Wrapper, Azure AI Foundry oder deine eigene API verwendest: Apidog hilft beim Testen und Debuggen.

TTS-Endpunkt testen

Neue POST-Anfrage in Apidog auf deinen FastAPI-Server.
Body im OpenAI-kompatiblen Format:

{
  "model": "vibevoice-1.5b",
  "input": "Testsprachsynthese mit der richtigen Intonation und Sprechgeschwindigkeit.",
  "voice": "alice",
  "response_format": "wav"
}

Sende die Anfrage und prüfe, ob die Antwort den Content-Type audio/wav enthält.
Speichere die Antwort als WAV zur Qualitätskontrolle.

ASR-Endpunkt testen

POST-Anfrage mit multipart/form-data
Audiodatei als Formularfeld anhängen
Prüfe, ob das strukturierte JSON Sprecher, Zeitstempel und Text enthält.

Audio-API-Verträge validieren

Apidog verarbeitet:

Binäre Uploads (ASR)
JSON-Body (TTS)
Antwortvalidierung für Transkripte
Umgebungsvariablen für lokale/Cloud-Endpunkte

Nutze Apidog, um Sprach-KI-Integrationen vor der Produktion zu testen.

Sicherheit und verantwortungsvolle Nutzung

Microsoft hat Schutzmaßnahmen eingeführt:

Hörbarer KI-Haftungsausschluss: Jeder Audio-Output enthält eine automatische KI-Ansage.
Unmerkliches Wasserzeichen: Herkunftsüberprüfung für Dritte.
Inferenz-Protokollierung: Hashbasierte Logs für Missbrauchserkennung.
MIT-Lizenz: Kommerzielle Nutzung erlaubt, aber produktive Nutzung ohne weitere Tests nicht empfohlen.

Erlaubte Nutzung

Forschung, Lehre, internes Prototyping
Podcasts mit KI-Offenlegung
Barrierefreiheit (TTS für Sehbehinderte)

Nicht erlaubt

Stimmimitation ohne Zustimmung
Deepfakes, Präsentation als echte Aufnahme
Live-Deepfake-Stimmenkonvertierung
Nicht-Sprach-Audio (Musik, SFX)

Einschränkungen, die zu beachten sind

TTS-Sprachunterstützung limitiert: Nur Englisch und Chinesisch (1.5B). ASR deckt >50 Sprachen ab.

Hohe Hardware-Anforderungen für ASR: 24 GB+ VRAM für ASR, TTS läuft auf Consumer-GPUs.
Keine Überlappung von Sprecher-Audio: Rundenbasierter Dialog, kein Übersprechen.
Modellverzerrungen: Qwen2.5-Basis kann zu Vorurteilen führen.
Software auf Forschungsniveau: Nicht produktionsreif, Fehler bei Randfällen möglich.

VibeVoice-ASR auf Azure AI Foundry bereitstellen

Für Teams ohne eigene GPU-Infrastruktur: Microsoft bietet VibeVoice-ASR als Managed API über Azure AI Foundry an. Vorteil:

Skalierung, Wartung und Updates durch Azure
HTTPS-Endpunkt mit strukturierter Transkriptausgabe

Für Testzwecke einfach Endpunkt-URL und Auth-Header in Apidog eintragen und Beispiel-Audio transkribieren.

Community und Ökosystem

VibeVoice hat eine starke Entwickler-Community:

62.630+ HuggingFace-Downloads/Monat (1.5B)
2.280+ Likes auf HuggingFace
79+ HuggingFace Spaces
12 feinabgestimmte Varianten
4 quantisierte Versionen
Community-Fork: vibevoice-community/VibeVoice

Wichtige Projekte:

VibeVoice-FastAPI: REST-API-Wrapper mit Docker
VibeVoice MCP Server: Integration für Coding-Tools
Apple Silicon Support: Community-Skripte für M1/M2/M3
Quantisierte Modelle: GGUF & Co. für weniger VRAM

FAQ

Ist VibeVoice kostenlos nutzbar?

Ja, alle Modelle sind MIT-lizenziert (TTS, Realtime, ASR). Nur Azure AI Foundry ist kostenpflichtig.

Kann VibeVoice auf Apple Silicon laufen?

Mit Community-Skripten läuft die Inferenz auch auf M1/M2/M3, aber langsamer als auf CUDA-GPUs.

Wie vergleicht sich VibeVoice mit ElevenLabs?

VibeVoice läuft lokal, ohne Cloud oder API-Kosten. ElevenLabs bietet mehr Stimmen/Qualität, ist aber kostenpflichtig und cloudbasiert. Für Datenschutz oder Offline: VibeVoice. Für höchste Qualität: ElevenLabs.

Warum wurde das GitHub-Repo deaktiviert?

Missbrauch (Deepfake/Stimmenklon). Microsoft baute Schutzmechanismen ein und reaktivierte das Repo. Die Community hielt das Projekt in einem Fork aktiv.

Kann ich eigene Stimmen feinabstimmen?

Ja, mit 30–60 Sek. klarer Sprachprobe (WAV, 24kHz Mono) und GPU-Ressourcen möglich.

Welche Audioformate gibt VibeVoice aus?

Standard: 24kHz WAV Mono. Mit ffmpeg konvertierbar in MP3, OGG, FLAC usw.

Kann ich VibeVoice-ASR als Whisper-Ersatz nutzen?

Für lange Audios mit Sprecherkennung: ja. Für kurze, laute Clips oder Edge: Whisper ist besser.

Unterstützt VibeVoice Echtzeit-Sprachchats?

VibeVoice-Realtime-0.5B ermöglicht Streaming mit ~300ms Latenz (erster Block). Für Duplex-Chats sind Azure OpenAI GPT-Realtime o.ä. besser geeignet.