DEV Community

Cover image for Microsoft VibeVoice: Open-Source Voice AI Modelle nutzen
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Microsoft VibeVoice: Open-Source Voice AI Modelle nutzen

TL;DR

VibeVoice ist Microsofts Open-Source-Sprach-KI-Familie mit drei Modellen: VibeVoice-1.5B für Text-zu-Sprache (TTS), VibeVoice-Realtime-0.5B für Streaming-TTS und VibeVoice-ASR für Spracherkennung. Sie sind MIT-lizenziert und laufen lokal. In diesem Leitfaden erhältst du konkrete Anleitungen zu Installation, Nutzung und API-Integration.

Probiere Apidog noch heute aus

Einleitung

Microsoft veröffentlichte VibeVoice Anfang 2026 als Open-Source-Sprach-KI-Framework. Das Framework enthält Modelle für Text-zu-Sprache und automatische Spracherkennung, die komplett lokal ohne Cloud-Anbindung laufen.

VibeVoice Diagramm mit drei Kreisen, die VibeVoice-1.5B, VibeVoice-Realtime-0.5B und VibeVoice-ASR repräsentieren, verbunden durch Linien in einem organischen Layout.

Die wichtigsten Modelle:

  • VibeVoice-1.5B: Konversations-TTS, bis zu 90 Minuten und 4 Sprecher.
  • VibeVoice-Realtime-0.5B: Streaming-TTS mit niedriger Latenz (~300 ms).
  • VibeVoice-ASR: Automatische Spracherkennung, 60 Minuten Audio, >50 Sprachen, strukturierte Ausgabe.

VibeVoice-ASR-Ergebnisse in verschiedenen Sprachen, einschließlich Englisch, Chinesisch, Deutsch, Spanisch, Russisch und mehr.

Nach Veröffentlichung gab es Missbrauchsfälle (Stimmklonung). Microsoft reagierte mit Sicherheitsmaßnahmen: hörbare KI-Haftungsausschlüsse und Wasserzeichen. VibeVoice-ASR ist auch über Azure AI Foundry als Cloud-API verfügbar. Die TTS-Modelle bleiben MIT-lizenziert und forschungsorientiert.

Im Folgenden findest du Schritt-für-Schritt-Anleitungen für Installation, Text-zu-Sprache, Spracherkennung, API-Integration und wie du Sprach-KI-Endpunkte direkt mit Apidog testest.

Wie VibeVoice funktioniert: Architekturübersicht

Der Tokenizer-Durchbruch

VibeVoice nutzt kontinuierliche Sprachtokenizer mit extrem niedriger 7,5 Hz Framerate (statt 50-100 Hz wie üblich). So können sehr lange Sequenzen (bis zu 90 Minuten Audio) verarbeitet werden.

Schematische Darstellung der Architektur eines VibeVoice Tokenizers, der die Datenflüsse durch Encoder, Quantizer und Decoder zeigt.
Diagramm, das die VibeVoice-Pipeline für die Text-zu-Sprache-Synthese zeigt, einschließlich LLM, Diffusionsmodell und dem Prozess zur Erzeugung von Audiowellenformen.

Zwei Tokenizer kommen zum Einsatz:

  • Akustischer Tokenizer: Sigma-VAE mit ~340 Mio. Parametern, reduziert 24kHz-Audio um das 3.200-fache.
  • Semantischer Tokenizer: Erfasst sprachliche Bedeutung, Architektur wie der akustische Tokenizer.

Next-Token-Diffusion

Das Modell kombiniert ein LLM (Qwen2.5-1.5B) mit einem leichten Diffusions-Head (~123 Mio. Parameter) für hochwertige Audioausgabe per DDPM.

Gesamt: 3B Parameter inkl. Tokenizer & Diffusion.

Trainingsansatz

VibeVoice verwendet Curriculum Learning: Training auf zunehmend langen Sequenzen (4K, 16K, 32K, 64K Token). Die Tokenizer bleiben eingefroren; LLM & Diffusion-Head werden optimiert.

VibeVoice-Modellspezifikationen

Modell Parameter Zweck Maximale Länge Sprachen Lizenz
VibeVoice-1.5B 3B (gesamt) Text-zu-Sprache 90 Minuten Englisch, Chinesisch MIT
VibeVoice-Realtime-0.5B ~0.5B Streaming-TTS Langform Englisch, Chinesisch MIT
VibeVoice-ASR ~9B Spracherkennung 60 Minuten Über 50 Sprachen MIT

VibeVoice-1.5B (TTS)

Spezifikation Wert
LLM-Basis Qwen2.5-1.5B
Kontextlänge 64K Token
Max. Sprecher 4 gleichzeitig
Audioausgabe 24kHz WAV Mono
Tensor-Typ BF16
Format Safetensors
HuggingFace-Downloads 62.630/Monat
Community-Forks 12 feinabgestimmte Varianten

VibeVoice-ASR

Spezifikation Wert
Architektur-Basis Qwen2.5
Parameter ~9B
Audioverarbeitung Bis zu 60 Minuten in einem Durchgang
Framerate 7.5 Hz
Durchschnittliche WER 7.77% (über 8 englische Datensätze)
LibriSpeech WER 2.20%
TED-LIUM WER 2.57%
Sprachen Über 50
Ausgabe Strukturiert (Wer + Wann + Was)
Formate WAV, FLAC, MP3 (16kHz+)

Installation und Einrichtung

Voraussetzungen

  • Python 3.8+
  • NVIDIA GPU mit CUDA
  • Mind. 7-8 GB VRAM (TTS), 24 GB+ VRAM (ASR, A100/H100 empfohlen)
  • Mind. 32 GB RAM (64 GB für ASR empfohlen)
  • CUDA 11.8+ (besser 12.0+)

VibeVoice TTS installieren

# Repo klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Abhängigkeiten installieren
pip install -r requirements.txt
Enter fullscreen mode Exit fullscreen mode

Modelle werden beim ersten Start automatisch geladen. Optional vorab laden:

from huggingface_hub import snapshot_download

# 1.5B TTS-Modell herunterladen
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)
Enter fullscreen mode Exit fullscreen mode

Installation via pip (Community-Paket)

pip install vibevoice
Enter fullscreen mode Exit fullscreen mode

Für ASR installieren

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Enter fullscreen mode Exit fullscreen mode

Alternativ: Bereitstellung via Azure AI Foundry für Cloud-Inferenz.

Spracherzeugung mit VibeVoice-1.5B

Generierung eines einzelnen Sprechers

Erstelle eine Textdatei script.txt:

Alice: Willkommen zum Apidog Entwickler-Podcast. Heute behandeln wir API-Teststrategien für 2026.
Enter fullscreen mode Exit fullscreen mode

Starte die Inferenz:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

Das .wav-File findest du im Ordner outputs/.

Podcast-Generierung mit mehreren Sprechern

Bis zu 4 Sprecher pro Skript:

Alice: Willkommen zurück zur Show. Heute haben wir zwei API-Experten bei uns.
Bob: Danke für die Einladung. Ich habe die letzten fünf Jahre an REST-API-Designmustern gearbeitet.
Carol: Und ich konzentriere mich auf die GraphQL-Leistungsoptimierung. Freut mich, hier zu sein.
Alice: Beginnen wir mit der Debatte, die jeder hören möchte. REST versus GraphQL für Mikroservices.
Bob: REST gibt Ihnen klare Ressourcengrenzen. Jeder Endpunkt ist einer bestimmten Ressource zugeordnet.
Carol: GraphQL bietet Ihnen Flexibilität. Ein Endpunkt, und der Client entscheidet, welche Daten er benötigt.
Enter fullscreen mode Exit fullscreen mode
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5
Enter fullscreen mode Exit fullscreen mode

Das Modell hält die Stimmen der Sprecher über die gesamte Aufnahme konsistent.

Stimmklonung (Zero-Shot)

Vorbereitung Referenz-Audio:

  • WAV (mono), 24.000 Hz, 30-60 Sek. klare Sprache

Konvertiere existierendes Audio:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Enter fullscreen mode Exit fullscreen mode

Starte die Gradio-Demo für Stimmklonung:

python demo/gradio_demo.py
Enter fullscreen mode Exit fullscreen mode

Web-UI unter http://127.0.0.1:7860 – Audio hochladen, Stimme wählen, Text generieren.

Streaming mit VibeVoice-Realtime-0.5B

Für niedrige Latenz:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice
Enter fullscreen mode Exit fullscreen mode

Das Realtime-Modell ist schneller, aber mit geringerer Wiedergabetreue. Für vorab generierte Inhalte: 1.5B verwenden.

VibeVoice mit Python verwenden

Pipeline-API

from transformers import pipeline
from huggingface_hub import snapshot_download

# Modell laden
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Multi-Sprecher-Skript
script = [
    {"role": "Alice", "content": "Wie gehen Sie mit API-Versionierung um?"},
    {"role": "Bob", "content": "Wir verwenden URL-Pfad-Versionierung. v1, v2 und so weiter."},
]

input_data = pipe.processor.apply_chat_template(script)

generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)
Enter fullscreen mode Exit fullscreen mode

FastAPI-Wrapper für die Produktion

Community-Wrapper stellt eine OpenAI-kompatible TTS-API bereit:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Enter fullscreen mode Exit fullscreen mode

API-Aufruf:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Ihre API-Dokumentation sollte eine Konversation sein, keine Monolog.",
    "voice": "alice"
  }' \
  --output speech.wav
Enter fullscreen mode Exit fullscreen mode

Du kannst diesen OpenAI-kompatiblen Endpunkt direkt in Apidog testen – importiere den Endpunkt, konfiguriere den Body, prüfe die Audioausgabe und validiere deine Integration ohne eigenen Code.

VibeVoice-ASR für die Spracherkennung verwenden

Grundlegende Transkription

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav
Enter fullscreen mode Exit fullscreen mode

Strukturiertes Ausgabeformat

VibeVoice-ASR gibt strukturierte Segmente zurück:

  • Wer: Sprecher (Speaker 1, Speaker 2 usw.)
  • Wann: Start-/Endzeit
  • Was: Text

Beispiel:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

ASR als MCP-Server

Für Integration in Coding-Agents (Claude Code, Cursor etc.):

pip install vibevoice-mcp-server
vibevoice-mcp serve
Enter fullscreen mode Exit fullscreen mode

So kann dein Coding-Agent Audio direkt transkribieren und im Workflow nutzen.

Wann VibeVoice-ASR vs. Whisper?

Anwendungsfall Beste Wahl Warum
Lange Meetings (30-60 Min.) VibeVoice-ASR 60-Minuten-Verarbeitung, Sprecherkennung
Interviews mit mehreren Sprechern VibeVoice-ASR Integrierte Diarisierung
Podcasts mit Zeitstempeln VibeVoice-ASR Strukturierte Wer/Wann/Was-Ausgabe
Mehrsprachige Inhalte (>50) VibeVoice-ASR Breite Sprachunterstützung
Kurze, laute Clips Whisper Bessere Rauschrobustheit
Edge/Mobile-Bereitstellung Whisper Kleinere Modelle, breitere Geräteunterstützung
Nicht-englische Sprachen (spez.) Whisper Ausgereifte Feinabstimmung

Testen von Sprach-KI-APIs mit Apidog

Egal ob du den VibeVoice-FastAPI-Wrapper, Azure AI Foundry oder deine eigene API verwendest: Apidog hilft beim Testen und Debuggen.

Screenshot der Apidog-Oberfläche, die einen API-Anforderungseditor für einen VibeVoice-TTS-Endpunkt zeigt, mit Feldern für Modell, Eingabe, Stimme und Ausgabeformat.

TTS-Endpunkt testen

  1. Neue POST-Anfrage in Apidog auf deinen FastAPI-Server.
  2. Body im OpenAI-kompatiblen Format:
{
  "model": "vibevoice-1.5b",
  "input": "Testsprachsynthese mit der richtigen Intonation und Sprechgeschwindigkeit.",
  "voice": "alice",
  "response_format": "wav"
}
Enter fullscreen mode Exit fullscreen mode
  1. Sende die Anfrage und prüfe, ob die Antwort den Content-Type audio/wav enthält.
  2. Speichere die Antwort als WAV zur Qualitätskontrolle.

ASR-Endpunkt testen

  • POST-Anfrage mit multipart/form-data
  • Audiodatei als Formularfeld anhängen
  • Prüfe, ob das strukturierte JSON Sprecher, Zeitstempel und Text enthält.

Audio-API-Verträge validieren

Apidog verarbeitet:

  • Binäre Uploads (ASR)
  • JSON-Body (TTS)
  • Antwortvalidierung für Transkripte
  • Umgebungsvariablen für lokale/Cloud-Endpunkte

Nutze Apidog, um Sprach-KI-Integrationen vor der Produktion zu testen.

Sicherheit und verantwortungsvolle Nutzung

Microsoft hat Schutzmaßnahmen eingeführt:

  • Hörbarer KI-Haftungsausschluss: Jeder Audio-Output enthält eine automatische KI-Ansage.
  • Unmerkliches Wasserzeichen: Herkunftsüberprüfung für Dritte.
  • Inferenz-Protokollierung: Hashbasierte Logs für Missbrauchserkennung.
  • MIT-Lizenz: Kommerzielle Nutzung erlaubt, aber produktive Nutzung ohne weitere Tests nicht empfohlen.

Erlaubte Nutzung

  • Forschung, Lehre, internes Prototyping
  • Podcasts mit KI-Offenlegung
  • Barrierefreiheit (TTS für Sehbehinderte)

Nicht erlaubt

  • Stimmimitation ohne Zustimmung
  • Deepfakes, Präsentation als echte Aufnahme
  • Live-Deepfake-Stimmenkonvertierung
  • Nicht-Sprach-Audio (Musik, SFX)

Einschränkungen, die zu beachten sind

  • TTS-Sprachunterstützung limitiert: Nur Englisch und Chinesisch (1.5B). ASR deckt >50 Sprachen ab.

Ein Diagramm, das die Sprachabdeckung von VibeVoice-ASR zeigt, wobei über 50 Sprachen auf einer Weltkarte hervorgehoben sind.

  • Hohe Hardware-Anforderungen für ASR: 24 GB+ VRAM für ASR, TTS läuft auf Consumer-GPUs.
  • Keine Überlappung von Sprecher-Audio: Rundenbasierter Dialog, kein Übersprechen.
  • Modellverzerrungen: Qwen2.5-Basis kann zu Vorurteilen führen.
  • Software auf Forschungsniveau: Nicht produktionsreif, Fehler bei Randfällen möglich.

VibeVoice-ASR auf Azure AI Foundry bereitstellen

Für Teams ohne eigene GPU-Infrastruktur: Microsoft bietet VibeVoice-ASR als Managed API über Azure AI Foundry an. Vorteil:

  • Skalierung, Wartung und Updates durch Azure
  • HTTPS-Endpunkt mit strukturierter Transkriptausgabe

Für Testzwecke einfach Endpunkt-URL und Auth-Header in Apidog eintragen und Beispiel-Audio transkribieren.

Community und Ökosystem

VibeVoice hat eine starke Entwickler-Community:

  • 62.630+ HuggingFace-Downloads/Monat (1.5B)
  • 2.280+ Likes auf HuggingFace
  • 79+ HuggingFace Spaces
  • 12 feinabgestimmte Varianten
  • 4 quantisierte Versionen
  • Community-Fork: vibevoice-community/VibeVoice

Wichtige Projekte:

  • VibeVoice-FastAPI: REST-API-Wrapper mit Docker
  • VibeVoice MCP Server: Integration für Coding-Tools
  • Apple Silicon Support: Community-Skripte für M1/M2/M3
  • Quantisierte Modelle: GGUF & Co. für weniger VRAM

FAQ

Ist VibeVoice kostenlos nutzbar?

Ja, alle Modelle sind MIT-lizenziert (TTS, Realtime, ASR). Nur Azure AI Foundry ist kostenpflichtig.

Kann VibeVoice auf Apple Silicon laufen?

Mit Community-Skripten läuft die Inferenz auch auf M1/M2/M3, aber langsamer als auf CUDA-GPUs.

Wie vergleicht sich VibeVoice mit ElevenLabs?

VibeVoice läuft lokal, ohne Cloud oder API-Kosten. ElevenLabs bietet mehr Stimmen/Qualität, ist aber kostenpflichtig und cloudbasiert. Für Datenschutz oder Offline: VibeVoice. Für höchste Qualität: ElevenLabs.

Warum wurde das GitHub-Repo deaktiviert?

Missbrauch (Deepfake/Stimmenklon). Microsoft baute Schutzmechanismen ein und reaktivierte das Repo. Die Community hielt das Projekt in einem Fork aktiv.

Kann ich eigene Stimmen feinabstimmen?

Ja, mit 30–60 Sek. klarer Sprachprobe (WAV, 24kHz Mono) und GPU-Ressourcen möglich.

Welche Audioformate gibt VibeVoice aus?

Standard: 24kHz WAV Mono. Mit ffmpeg konvertierbar in MP3, OGG, FLAC usw.

Kann ich VibeVoice-ASR als Whisper-Ersatz nutzen?

Für lange Audios mit Sprecherkennung: ja. Für kurze, laute Clips oder Edge: Whisper ist besser.

Unterstützt VibeVoice Echtzeit-Sprachchats?

VibeVoice-Realtime-0.5B ermöglicht Streaming mit ~300ms Latenz (erster Block). Für Duplex-Chats sind Azure OpenAI GPT-Realtime o.ä. besser geeignet.

Top comments (0)