Emre Demir

Posted on May 8 • Originally published at apidog.com

Grok Voice Kostenlos Nutzen: Konsolen Einrichtung, Stimmklonung & Echtzeit Sprachagenten

xAI hat Grok Voice mit Grok 4.3 ausgeliefert. Für Entwickler ist der wichtigste Punkt: Der Zugriff ist in der xAI Console kostenlos verfügbar. Es gibt keine Kosten pro Minute und keine separaten Token-Kosten für das Sprachagentenmodell, Text-to-Speech, Speech-to-Text oder Custom-Voices-Klonen. Abgerechnet wird nur die zugrunde liegende Grok-4.3-Token-Nutzung, wenn der Agent Reasoning ausführt; dafür gibt es in der Console eine eigene kostenlose Freigrenze zum Testen.

Testen Sie Apidog noch heute

Dieser Leitfaden zeigt praktisch, wie Sie Grok Voice einrichten, eine eigene Stimme klonen, eine WebSocket-Sitzung starten und den Ablauf mit Apidog testen, bevor Sie ihn in ein Produkt integrieren.

Wenn Sie zusätzlich den umfassenderen Grok 4.3 API-Leitfaden oder einen direkten Vergleich mit OpenAIs Stack in Grok Voice vs. GPT-Realtime benötigen, decken diese begleitenden Beiträge den Rest der Oberfläche ab.

Kurz gesagt

Grok Voice ist für Benutzer der xAI Console (console.x.ai) kostenlos nutzbar.
Keine Gebühr pro Minute oder pro Token für TTS, STT, Sprachagenten oder benutzerdefinierte Stimmen.
Flaggschiff-Modell: grok-voice-think-fast-1.0.
Zeit bis zum ersten Audio: unter 1 Sekunde; xAI gibt an, dass es ungefähr 5x schneller als der nächste Wettbewerber ist.
Über 80 voreingestellte Stimmen in 28 Sprachen.
5 integrierte Sprachagenten-Personas: Eve, Ara, Rex, Sal und Leo.
Benutzerdefiniertes Stimmenklonen aus etwa 1 Minute Sprache; produktionsreife Stimme in unter 2 Minuten.
WebSocket-Endpunkt:

wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0

REST-Endpunkte für TTS, STT und Custom Voices teilen sich eine API-Oberfläche.
Verwenden Sie Apidog, um WebSocket-Sitzungen zu skripten und ohne erneute Audioaufnahme zu reproduzieren.

Was Grok Voice kostenlos bietet

Der kostenlose Zugriff läuft über die xAI Console. Melden Sie sich unter console.x.ai an, generieren Sie einen API-Schlüssel und verwenden Sie damit vier Oberflächen:

Verfügbare Oberflächen

Sprachagent: Echtzeit-Sprache-zu-Sprache mit Tool-Nutzung, serverseitiger Spracherkennungsaktivität und integriertem Turn-Taking.
Text-to-Speech: Über 80 voreingestellte Stimmen in 28 Sprachen, Ausgabe als MP3 oder μ-law für Telefonie.
Speech-to-Text: Streaming- und Batch-Transkription in 25 Eingabesprachen, inklusive Wortzeitstempeln und Sprechererkennung.
Benutzerdefinierte Stimmen: Klonen einer Stimme aus einer kurzen Stichprobe. Die resultierende voice_id funktioniert für TTS und den Sprachagenten.

Der einzige relevante Verbrauchszähler ist die Grok-4.3-Token-Nutzung, wenn der Agent Reasoning ausführt. Die Console stellt dafür kostenlose Credits bereit, sodass Sie End-to-End-Flows validieren können, bevor Abrechnung relevant wird.

Schritt 1: API-Schlüssel in der Console erstellen

Öffnen Sie console.x.ai.
Melden Sie sich mit Ihrem X-Konto an.
Wechseln Sie zur Seite API-Schlüssel.
Erstellen Sie einen neuen Schlüssel.
Aktivieren Sie die Bereiche voice und chat.
Speichern Sie den Schlüssel lokal als Umgebungsvariable:

export XAI_API_KEY="xai-..."

Für serverseitige Tests reicht dieser Schlüssel aus.

Für Browser-Anwendungen sollten Sie den Hauptschlüssel nicht an den Client ausliefern. Erstellen Sie stattdessen ein ephemeres Token über die Console-Einstellungen oder über den Endpunkt:

/v1/realtime/sessions

Ephemere Token haben denselben Umfang, laufen aber nach wenigen Minuten ab. Damit kann ein Browser direkt mit dem WebSocket-Endpunkt verbunden werden, ohne den übergeordneten API-Schlüssel offenzulegen.

Schritt 2: Stimme auswählen

Sie haben zwei Optionen: voreingestellte Stimmen oder benutzerdefinierte Stimmklone.

Option A: Voreingestellte Stimmen verwenden

Der Sprachagent enthält fünf benannte Personas:

Stimme	Beschreibung	Geeignete Verwendung
`eve`	weiblich, energisch	positive Support-Flows
`ara`	weiblich, warm	allgemeine Unterstützung
`rex`	männlich, selbstbewusst	Verkaufsgespräche
`sal`	neutral, sanft	Erzählungen und längere Lesungen
`leo`	männlich, autoritär	Compliance und formale Abläufe

Für die breitere TTS-API gibt es zusätzlich über 80 Stimmen in 28 Sprachen. Diese werden über den voice-Parameter am TTS-Endpunkt ausgewählt.

Option B: Eigene Stimme klonen

Für einen benutzerdefinierten Stimmklon laden Sie eine WAV-Datei mit etwa einer Minute sauberer Sprache eines einzelnen Sprechers hoch:

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

Die Antwort enthält eine voice_id, die Sie anschließend sowohl für TTS als auch für den Sprachagenten verwenden können.

Praktische Hinweise für bessere Ergebnisse:

Verwenden Sie einen ruhigen Raum.
Nehmen Sie eine einzelne Stimme auf.
Vermeiden Sie Hintergrundmusik.
Verwenden Sie einen konsistenten Abstand zum Mikrofon.
Nutzen Sie einen einzelnen Take statt zusammengeschnittener Clips.

Die maximale Länge des Referenzclips beträgt 120 Sekunden. Sauberes Audio ist wichtiger als maximale Länge.

Schritt 3: WebSocket-Sitzung starten

Der Sprachagent läuft über eine einzelne WebSocket-Verbindung:

WebSocket öffnen.
Sitzung konfigurieren.
Audio als Frames senden.
Audio-Deltas als Antwort empfangen.
Verbindung für weitere Gesprächsrunden offen halten.

Minimaler Node.js-Client:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  {
    headers: {
      Authorization: `Bearer ${process.env.XAI_API_KEY}`,
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: {
        type: "server_vad",
      },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());

  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }

  if (event.type === "response.audio.done") {
    console.error("Audio response finished");
  }
});

Benutzeraudio senden Sie als Base64-kodierte PCM16-Frames über input_audio_buffer.append-Ereignisse.

Der Server sendet während der Antwort:

response.audio.delta

Wenn die Runde beendet ist, folgt:

response.audio.done

Für Browser- und Desktop-Anwendungen ist PCM16 bei 24 kHz ein sicherer Standard. Für Telefonie verwenden Sie μ-law.

Schritt 4: Tool-Nutzung aktivieren

Der Sprachagent unterstützt Funktionsaufrufe. Dadurch kann das Modell während eines Gesprächs Ihre APIs verwenden.

Beispiel: Ein Tool zum Abrufen eines Bestellstatus deklarieren.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [
      {
        type: "function",
        name: "lookup_order",
        description: "Look up the status of a customer order by order number.",
        parameters: {
          type: "object",
          properties: {
            order_id: {
              type: "string",
            },
          },
          required: ["order_id"],
        },
      },
    ],
  },
}));

Wenn das Modell das Tool aufrufen möchte, erhalten Sie ein Ereignis wie:

response.function_call_arguments.done

Implementieren Sie dann auf Ihrer Seite den eigentlichen API-Aufruf und senden Sie das Ergebnis als conversation.item.create mit dem Typ function_call_output zurück.

Der Ablauf sieht so aus:

Modell erkennt, dass externe Daten benötigt werden.
Modell gibt Funktionsargumente aus.
Ihre Anwendung führt die Funktion aus.
Ihre Anwendung sendet das Ergebnis zurück.
Das Modell setzt die Antwort fort und spricht das Ergebnis aus.

Zusätzlich ist ein integriertes web_search-Tool verfügbar. Das ist hilfreich, wenn Antworten mit aktuellen Daten angereichert werden sollen, ohne direkt eine eigene Retrieval-Schicht zu bauen.

Schritt 5: Text-to-Speech ohne Sprachagent verwenden

Wenn Sie nur Audio aus Text generieren möchten, benötigen Sie keine WebSocket-Sitzung. Verwenden Sie stattdessen den REST-Endpunkt für TTS.

Beispiel:

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Verfügbare Ausgabeformate:

mp3: High-Fidelity-Ausgabe
mulaw: 8 kHz, geeignet für Telefonie

Der Endpunkt ist synchron. Sie senden Text und erhalten Audiodaten zurück. Eine Streaming-Sitzung ist dafür nicht erforderlich.

Schritt 6: WebSocket-Flow in Apidog testen

WebSocket-APIs sind im Terminal schwer zu debuggen, weil die Konversation zustandsbehaftet ist. Ein reproduzierbarer Test-Flow hilft besonders bei Voice-Agents, da kleine Änderungen an Stimme, Prompt oder Turn-Taking das Verhalten beeinflussen können.

Ein praktisches Setup:

Erstellen Sie in Apidog eine neue WebSocket-Anfrage.
Speichern Sie die WebSocket-URL:

wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0

Legen Sie XAI_API_KEY als Umgebungsvariable an.
Fügen Sie den Authorization-Header hinzu:

Authorization: Bearer {{XAI_API_KEY}}

Erstellen Sie ein Nachrichtenskript mit:
- session.update
- input_audio_buffer.append
- response.create
Verwenden Sie einen Fixture-Audioframe, damit Tests reproduzierbar bleiben.
Erfassen Sie alle Serverereignisse als Baum.
Vergleichen Sie mehrere Durchläufe, wenn Sie Stimme oder Instruktionen ändern.

Das ist besonders nützlich, um Unterschiede im Turn-Taking-Verhalten, in der Latenz oder in der Audioausgabe sichtbar zu machen.

Laden Sie Apidog herunter, erstellen Sie eine neue WebSocket-Anfrage und speichern Sie Ihren XAI_API_KEY in den Umgebungsvariablen. Dieselbe Sammlung kann auch REST-Endpunkte für TTS und STT enthalten, sodass WebSocket- und REST-Tests in einem Projekt bleiben.

Weitere Testmuster für zustandsbehaftete APIs finden Sie im Beitrag API-Test-Tool für QA-Ingenieure.

Limits des kostenlosen Tarifs

Die Console bietet Zugriff ohne Gebühren pro Minute oder separate Token-Gebühren für die Sprachfunktionen selbst. Trotzdem gibt es Grenzen, die Sie beim Prototyping berücksichtigen sollten.

Ratenbegrenzungen

Die Console erzwingt Anfragen-pro-Minute-Grenzen pro Endpunkt, um Missbrauch zu verhindern. Diese reichen für Tests, Demos und Prototypen aus, sind aber keine Produktionsfreigabe.

Wenn Sie Rate-Limit-Fehler erhalten:

Anfragen bündeln
weniger parallele Sessions starten
Audio-Frames effizienter senden
auf einen kostenpflichtigen Tarif wechseln

Das API-Verhalten bleibt gleich; nur die Obergrenzen ändern sich.

Kontingent für benutzerdefinierte Stimmen

Ein einzelnes Konto kann nur eine begrenzte Anzahl benutzerdefinierter Stimmklone gleichzeitig speichern. Wenn ein Slot benötigt wird, löschen Sie eine nicht mehr benötigte Stimme und erstellen Sie den Klon erneut.

Reasoning-Tokens

Wenn der Sprachagent im Hintergrund Grok 4.3 für Reasoning nutzt, wird diese Token-Nutzung Ihrem Konsolenguthaben angerechnet. Das kostenlose Guthaben reicht für Prototyping; für Produktion ist ein kostenpflichtiger Plan erforderlich.

Stimmen vor dem Live-Gang vergleichen

Testen Sie jede Stimme mit denselben Beispielsätzen, bevor Sie sie produktiv verwenden. Stimmen unterscheiden sich in Ton, Intonation und Eignung für bestimmte Use Cases.

Eine kurze Testliste reicht oft aus:

Eine zweiseitige Begrüßung.
Eine Bestätigungsphrase wie: „Verstanden, das ist alles erledigt.“
Ein langer Satz mit Zahl, Datum und Komma.

Ein modellunabhängiger Test:

Schreiben Sie einen kurzen Prompt.
Lassen Sie ihn mit derselben Stimme in drei Gesprächssituationen erzeugen:
- ruhig
- normal
- dringend
Hören Sie auf Intonation, Tempo und Natürlichkeit.
Wiederholen Sie den Test mit zwei bis drei anderen Stimmen.

Groks voreingestellte Stimmen bewältigen solche Varianten besser als viele TTS-Engines, die wir getestet haben. Trotzdem sollte diese Prüfung vor dem Live-Gang Teil Ihres Voice-QA-Prozesses sein.

FAQ

Ist die API tatsächlich kostenlos, oder gibt es eine versteckte Obergrenze?

Die Sprachfunktionen TTS, STT, Sprachagent und Custom Voices sind in der Console ohne Gebühren pro Minute oder separate Token-Gebühren nutzbar. Das zugrunde liegende Reasoning-Modell wird über das Konsolenguthaben abgerechnet. Die kostenlose Freigrenze reicht für Prototyping.

Benötige ich ein X-Konto?

Ja. Für die Anmeldung an der xAI Console wird ein X-Konto verwendet.

Kann ich Grok Voice im Browser verwenden?

Ja. Verwenden Sie dafür ein ephemeres Token.

Der empfohlene Ablauf:

Ihr Server erstellt ein kurzlebiges Token über /v1/realtime/sessions.
Der Browser erhält nur dieses ephemere Token.
Der Browser öffnet direkt die WebSocket-Verbindung.
Der Haupt-API-Schlüssel bleibt auf Ihrem Server.

Welche Audioqualität kann ich erwarten?

Die TTS-Ausgabe ist hochauflösendes MP3 oder 8 kHz μ-law. Der Sprachagent verwendet intern PCM16 bei 24 kHz. Die Qualität ist vergleichbar mit großen kommerziellen TTS-Engines; die Latenz ist das wichtigste Unterscheidungsmerkmal.

Funktioniert Grok Voice mit Telefonie?

Ja. Die μ-law-Ausgabe ist das Standardformat für SIP- und PSTN-Brücken. Sie benötigen weiterhin einen SIP-Anbieter, da xAI derzeit kein eigenes SIP-Gateway bereitstellt.

Wie gut ist die Qualität beim Stimmenklonen?

Die Qualität hängt stärker von der Referenzaufnahme als von der Länge ab. Eine saubere 60-Sekunden-Aufnahme in einem ruhigen Raum ist in der Praxis besser als eine verrauschte 120-Sekunden-Aufnahme. Die resultierende voice_id kann sowohl mit dem TTS-Endpunkt als auch mit dem Sprachagenten genutzt werden.

Kann ich Grok Voice für KI-Charaktere in einem Spiel verwenden?

Ja. Der TTS-Endpunkt ist schnell genug für Laufzeitgenerierung, und Custom Voices ermöglichen eigene Stimmen pro Charakter. Achten Sie bei langen Zeilen auf die Latenz; chunked TTS ist dafür das passende Muster.

Zusammenfassung

Grok Voice ist 2026 ein direkter Weg zu einem kostenlosen Echtzeit-Sprachagenten. Die Console erhebt keine Gebühr pro Minute für Sprachfunktionen, die Latenz ist niedrig, und Custom Voices reduzieren den Aufwand für individuelle Sprachoberflächen.

Der schnellste Validierungsweg:

API-Schlüssel in der xAI Console erstellen.
Eine voreingestellte Stimme auswählen.
WebSocket-Sitzung starten.
Einen reproduzierbaren Test in Apidog skripten.
Drei Stimmen mit denselben Prompts vergleichen.
Erst danach Browser-, App- oder Telefonie-Integration bauen.

Wenn Sie Grok Voice mit der Grok-4.3-Reasoning-Engine kombinieren möchten, lesen Sie den Grok 4.3 API-Leitfaden. Für einen direkten Vergleich mit OpenAIs Stack siehe Grok Voice vs. GPT-Realtime.

DEV Community