Emre Demir

Posted on May 8 • Originally published at apidog.com

Grok 4.3 API Nutzung: Eine Anleitung

xAI hat Grok 4.3 schrittweise ausgerollt: Beta am 17. April 2026, API-Zugang am 30. April und allgemeine Verfügbarkeit am 6. Mai. Für Entwickler sind vor allem vier Punkte relevant: ein 1.000.000-Token-Kontextfenster, native Videoeingabe, durchgängiges Reasoning und eine Preissenkung von ungefähr 40 % gegenüber Grok 4.20. Da acht ältere Grok-Modelle am 15. Mai eingestellt werden, sollten bestehende Integrationen mit grok-3- oder grok-4-Modellen jetzt migriert und getestet werden.

Probieren Sie Apidog noch heute aus

Dieser Leitfaden zeigt die praktische Integration von Grok 4.3: Endpunkt, Authentifizierung, OpenAI-kompatible base_url, reasoning_effort, Videoeingabe, Funktionsaufrufe und ein reproduzierbares Test-Setup in Apidog.

Für die Sprachseite derselben Veröffentlichung siehe Wie man Grok Voice kostenlos nutzt. Für den direkten Vergleich mit OpenAIs führendem Sprachmodell siehe Grok Voice vs. GPT-Realtime.

TL;DR

Grok 4.3 ist seit dem 6. Mai 2026 allgemein verfügbar. Acht ältere Modelle werden am 15. Mai 2026 eingestellt.
Preise: $1.25 pro 1M Eingabe-Tokens, $2.50 pro 1M Ausgabe-Tokens, zwischengespeicherte Eingabe $0.20 pro 1M.
Kontextfenster: 1M Tokens.
Neue Fähigkeit: native Videoeingabe.
Reasoning ist durchgängig aktiv und kann über reasoning_effort gesteuert werden: low, medium, high.
API-Endpunkt: https://api.x.ai/v1/chat/completions.
OpenAI-kompatibel: OpenAI SDK verwenden, base_url austauschen.
Durchsatz: ungefähr 159 Tokens/Sekunde auf Standard-Tiers.
Testen Sie Varianten mit Apidog, um Latenz, Antwortqualität und usage.reasoning_tokens zu vergleichen.

Was sich in Grok 4.3 geändert hat

Die wichtigsten Änderungen für Implementierungen:

Niedrigere Kosten

Die Eingabekosten sinken um 37,5 % gegenüber Grok 4.20, die Ausgabekosten um 58,3 %. Zwischengespeicherte Eingaben kosten jetzt 0,20 $ pro 1M Tokens. Das ist besonders relevant für stabile System-Prompts, große Kontextblöcke und wiederkehrende Agenten-Workflows.
1M-Token-Kontext

Das Kontextfenster steigt von 256k auf 1M Tokens. Damit können Sie große Diffs, lange Dokumente, komplette Berichte oder längere Konversationshistorien in einer Anfrage verarbeiten.
Native Videoeingabe

Grok 4.3 kann Video-URLs direkt als Inhaltsblock verarbeiten. Sie müssen nicht zuerst manuell Frames extrahieren.
Durchgängiges Reasoning

Jede Anfrage nutzt mindestens low Reasoning. Über reasoning_effort steuern Sie, wie viel Reasoning-Zeit und Tokens das Modell investieren soll.
Bessere agentische Workflows

xAI nennt einen Gewinn von +300 Elo-Punkten auf GDPval-AA gegenüber Grok 4.20. In der Praxis ist das vor allem bei Tool-Auswahl, mehrstufigen Abläufen und Fehlererholung relevant.

Der Intelligenzindex von 53 (Artificial Analysis) platziert Grok 4.3 über dem Durchschnitt von 35 für seine Preisklasse und auf Platz 10 von 146 erfassten Modellen.

Voraussetzungen

Bereiten Sie vor der ersten Anfrage diese Komponenten vor:

Ein xAI Console-Konto unter console.x.ai.
Einen API-Schlüssel, idealerweise projektbezogen für Produktionsumgebungen.
Das OpenAI SDK oder das xAI SDK.
Einen API-Client wie Apidog, damit Sie Requests versionieren, wiederholen und Varianten vergleichen können.

Exportieren Sie den Schlüssel lokal:

export XAI_API_KEY="xai-..."

Endpunkt und Authentifizierung

Grok 4.3 wird über die OpenAI-kompatible Chat-Completions-Schnittstelle bereitgestellt.

POST https://api.x.ai/v1/chat/completions

Die Header entsprechen dem üblichen Bearer-Token-Muster:

Authorization: Bearer $XAI_API_KEY
Content-Type: application/json

Wenn Sie bereits das OpenAI SDK verwenden, müssen Sie in vielen Fällen nur base_url und model ändern.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["XAI_API_KEY"],
    base_url="https://api.x.ai/v1",
)

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Summarize the trade-offs of GraphQL vs REST in three bullets."
        }
    ],
    reasoning_effort="medium",
)

print(response.choices[0].message.content)

Anfrageparameter

Die wichtigsten Parameter für Grok 4.3:

Parameter	Typ	Werte	Hinweise
`model`	string	`grok-4.3`	Erforderlich.
`messages`	array	OpenAI-Nachrichtenstruktur	Erforderlich. Unterstützt `system`, `user`, `assistant`.
`reasoning_effort`	string	`low`, `medium`, `high`	Optional. Standard: `medium`.
`max_tokens`	int	1–32768	Begrenzt die Ausgabe.
`temperature`	float	0.0–2.0	Standard: 1.0.
`top_p`	float	0.0–1.0	Nucleus Sampling.
`stream`	bool	`true`, `false`	Server-Sent Events bei `true`.
`tools`	array	OpenAI-Tool-Struktur	Für Funktionsaufrufe.
`tool_choice`	string / object	`auto`, `none`, spezifisches Tool	Standard-OpenAI-Semantik.
`response_format`	object	`{ "type": "json_object" }`	Strukturierte Ausgabe.
`seed`	int	beliebig	Für Reproduzierbarkeit bei `temperature: 0`.

Minimaler curl-Request:

curl https://api.x.ai/v1/chat/completions \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-4.3",
    "messages": [
      {
        "role": "system",
        "content": "You are a senior backend engineer."
      },
      {
        "role": "user",
        "content": "Review this query plan and flag the bottleneck."
      }
    ],
    "reasoning_effort": "high"
  }'

Die Antwort folgt der OpenAI-Struktur:

{
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "..."
      }
    }
  ],
  "usage": {
    "prompt_tokens": 123,
    "completion_tokens": 456,
    "reasoning_tokens": 78,
    "total_tokens": 657
  }
}

Reasoning-Aufwand richtig wählen

reasoning_effort ist einer der wichtigsten Tuning-Parameter.

`low`

Geeignet für:

Klassifizierung
einfache Zusammenfassungen
FAQ-Antworten
Routing
einfache Extraktion

Beispiel:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Classify this ticket as billing, technical, or account."
        }
    ],
    reasoning_effort="low",
)

`medium`

Geeignet für:

Kundenservice
einfache Tool-Nutzung
Datenanalyse
Standard-Agenten
strukturierte Antworten

medium ist der Standard und für den meisten Produktionsverkehr der erste sinnvolle Wert.

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Analyze this API error log and suggest likely causes."
        }
    ],
    reasoning_effort="medium",
)

`high`

Geeignet für:

mehrstufige Agenten
komplexe Code-Reviews
mathematische Aufgaben
Planungsaufgaben
Workflows mit mehreren Tool-Aufrufen

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Review this migration plan and identify hidden failure modes."
        }
    ],
    reasoning_effort="high",
)

Wichtig: Reasoning ist in Grok 4.3 nicht vollständig deaktivierbar. Auch low führt einen grundlegenden Reasoning-Schritt aus.

Funktionsaufrufe verwenden

Grok 4.3 unterstützt die OpenAI-kompatible Tool-Struktur. Der Ablauf:

Tool-Schema deklarieren.
Anfrage mit tools senden.
tool_calls aus der Antwort lesen.
Tool serverseitig ausführen.
Ergebnis als tool-Nachricht zurückgeben.

Beispiel:

tools = [
    {
        "type": "function",
        "function": {
            "name": "lookup_user",
            "description": "Look up a user by ID.",
            "parameters": {
                "type": "object",
                "properties": {
                    "user_id": {
                        "type": "string"
                    }
                },
                "required": ["user_id"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Find user u_42 and tell me their last login."
        }
    ],
    tools=tools,
    reasoning_effort="medium",
)

tool_calls = response.choices[0].message.tool_calls

for call in tool_calls:
    print(call.function.name)
    print(call.function.arguments)

Danach führen Sie das Tool in Ihrer Anwendung aus und senden das Ergebnis zurück:

messages = [
    {
        "role": "user",
        "content": "Find user u_42 and tell me their last login."
    },
    response.choices[0].message,
    {
        "role": "tool",
        "tool_call_id": tool_calls[0].id,
        "content": '{"user_id":"u_42","last_login":"2026-05-01T13:45:00Z"}'
    }
]

final_response = client.chat.completions.create(
    model="grok-4.3",
    messages=messages,
    tools=tools,
    reasoning_effort="medium",
)

print(final_response.choices[0].message.content)

Wenn Sie Tool-Abläufe isoliert testen möchten, beschreibt MCP-Servertests in Apidog eine passende Wiedergabe- und Testeinrichtung.

Videoeingabe

Grok 4.3 ist das erste Grok-Modell mit nativer Videoeingabe. Sie übergeben eine Video-URL als Inhaltsblock:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe what happens in this clip and flag any anomalies."
                },
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://example.com/clip.mp4"
                    }
                },
            ],
        }
    ],
    reasoning_effort="medium",
)

print(response.choices[0].message.content)

Praktische Hinweise:

Video-Tokens zählen zu den Eingabe-Tokens.
Lange Clips verbrauchen den Kontext schnell.
Wenn Kosten relevant sind, kürzen oder komprimieren Sie Videos vor dem Senden.
Da das Modell nativ über Frames reasonen kann, müssen Sie keine eigenen Keyframes extrahieren.

1M-Token-Kontext praktisch nutzen

Das 1M-Kontextfenster ist besonders nützlich, wenn Sie bisher Chunking, Retrieval oder manuelles Zusammenführen einsetzen mussten.

Typische Muster:

Code-Review über große Diffs

System:
You are a senior backend reviewer. Focus on correctness, security, and migration risks.

User:
Here is the full diff:
<diff>

Here are the affected files:
<files>

Here is the CI output:
<logs>

Return:
1. Critical issues
2. Risky assumptions
3. Suggested fixes

Dokumenten-QA

Sie können lange Verträge, technische Spezifikationen oder Berichte direkt in den Prompt aufnehmen und gezielte Fragen stellen:

Based only on the document below, list all clauses that affect data retention.

<full document>

Agenten-Kontext

Für länger laufende Agenten können Sie mehr Verlauf im Kontext halten, statt aggressive Zusammenfassungen zu erzwingen.

Zwischengespeicherte Eingaben reduzieren die Kosten bei stabilen Prompts deutlich. Ein stabiler System-Prompt mit 400.000 Tokens kostet bei zwischengespeicherter Eingabe 0,08 $ pro Aufruf statt 0,50 $ bei regulärer Eingabe.

Migration von älteren Grok-Modellen

Acht ältere Grok-Modelle werden am 15. Mai 2026, 12:00 Uhr PT eingestellt. Wenn Ihre Anwendung noch grok-3- oder ältere grok-4-Varianten nutzt, planen Sie mindestens diese Schritte:

Modellnamen auf grok-4.3 ändern.
base_url auf https://api.x.ai/v1 setzen, falls noch nicht geschehen.
Testfälle mit echten Produktionsprompts ausführen.
Latenz und usage.reasoning_tokens vergleichen.
Regex- oder Parser-Nachbearbeitung erneut validieren.

Beispiel für eine minimale Migration:

 response = client.chat.completions.create(
-    model="grok-4.20",
+    model="grok-4.3",
     messages=messages,
+    reasoning_effort="medium",
 )

Achten Sie besonders auf zwei Punkte:

Reasoning-Latenz: Grok 4.3 führt immer Reasoning aus. Wenn Ihr vorheriger Pfad auf sehr niedrige Latenz optimiert war, testen Sie reasoning_effort="low".
Ausgabeformat: Grok 4.3 erzeugt tendenziell strukturiertere Antworten. Wenn Ihre Nachbearbeitung stark auf Regex basiert, testen Sie alle erwarteten Antwortvarianten.

Für Preisvergleiche mit OpenAI-Modellen siehe GPT-5.5-Preise. Für eine ähnliche API-Integration siehe Wie man die GPT-5.5 API verwendet.

Testen in Apidog

Ein pragmatisches Test-Setup in Apidog:

Erstellen Sie eine Umgebung mit:
- XAI_API_KEY
- BASE_URL = https://api.x.ai/v1
Legen Sie einen Request an:

POST {{BASE_URL}}/chat/completions
Authorization: Bearer {{XAI_API_KEY}}
Content-Type: application/json

Verwenden Sie diesen Body:

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "system",
      "content": "You are a senior backend engineer."
    },
    {
      "role": "user",
      "content": "Review this API design and identify production risks."
    }
  ],
  "reasoning_effort": "{{REASONING_EFFORT}}"
}

Erstellen Sie drei Varianten:
- REASONING_EFFORT = low
- REASONING_EFFORT = medium
- REASONING_EFFORT = high
Vergleichen Sie:
- Antwortqualität
- Latenz
- usage.prompt_tokens
- usage.completion_tokens
- usage.reasoning_tokens
- usage.total_tokens
Optional: Erstellen Sie eine vierte Variante mit OpenAI-Base-URL, um bei identischem Prompt ein Vergleichsmodell zu testen.

Laden Sie Apidog herunter, um diese Varianten als wiederholbare API-Tests zu speichern. Für eine breitere Teststrategie siehe API-Testtool für QA-Ingenieure.

Ratenbegrenzungen und Backoff

Die konkreten Tier-Limits ändern sich und sollten in der xAI-Konsole geprüft werden. xAI nennt ungefähr 159 Tokens/Sekunde als Ausgabegeschwindigkeit pro Stream. Das ist nicht dasselbe wie ein globaler Aggregatdurchsatz.

Wenn Sie ein Rate Limit erreichen, gibt die API einen 429-Fehler mit retry-after zurück. Implementieren Sie exponentiellen Backoff:

import time
from openai import RateLimitError

def call_with_backoff(fn, max_retries=5):
    delay = 1

    for attempt in range(max_retries):
        try:
            return fn()
        except RateLimitError:
            if attempt == max_retries - 1:
                raise

            time.sleep(delay)
            delay *= 2

Verwendung:

response = call_with_backoff(
    lambda: client.chat.completions.create(
        model="grok-4.3",
        messages=[
            {
                "role": "user",
                "content": "Summarize this incident report."
            }
        ],
        reasoning_effort="medium",
    )
)

FAQ

Ist Grok 4.3 Ende-zu-Ende OpenAI-kompatibel?

Für Chat Completions: ja. Sie können das OpenAI SDK verwenden, base_url ändern und model="grok-4.3" setzen. Funktionsaufrufe, strukturierte Ausgabe und Streaming folgen der OpenAI-kompatiblen Form.

Unterstützt Grok 4.3 die Responses API?

Die xAI-Schnittstelle ist aktuell Chat Completions. Die Responses API ist nur für OpenAI verfügbar.

Was ist das tatsächliche Kontextlimit?

1.000.000 Tokens. Lange Eingaben verursachen auch bei 1,25 $ pro 1M Tokens reale Kosten. Verwenden Sie Caching, wenn große Promptteile stabil bleiben.

Wie beeinflusst Reasoning die Latenz?

Die Latenz bis zum ersten Token kann höher sein als bei Modellen ohne Reasoning. Danach streamt Grok 4.3 mit ungefähr 159 Tokens/Sekunde. Für Genauigkeits- und Agenten-Workloads ist der Trade-off häufig sinnvoll.

Kann ich Grok 4.3 mit Grok Voice verwenden?

Ja. Der Sprachagent grok-voice-think-fast-1.0 ruft Grok 4.3 im Hintergrund auf, wenn Reasoning benötigt wird. Sie können Grok 4.3 auch direkt aus einer eigenen Sprachschleife mit TTS- und STT-Komponenten aufrufen.

Was passiert mit alten Grok-3- oder Grok-4-Aufrufen nach dem 15. Mai?

Sie schlagen mit einem 410-Fehler fehl, weil das Modell eingestellt wurde. Migrieren Sie vorher auf grok-4.3.

Unterstützt Grok 4.3 Bildeingabe?

Ja. Zusätzlich zur neuen Videoeingabe können Sie Bild-URLs als Inhaltsblock übergeben, analog zur OpenAI-kompatiblen Form.

Zusammenfassung

Grok 4.3 ist für Entwickler vor allem wegen OpenAI-kompatibler Integration, 1M-Kontext, durchgängigem Reasoning, nativer Videoeingabe und niedrigeren Kosten interessant. Für bestehende Grok-Integrationen ist die Migration meist klein: model ändern, optional reasoning_effort setzen und reale Prompts erneut testen.

Der schnellste Validierungspfad: Legen Sie in Apidog drei Varianten mit low, medium und high an, messen Sie Latenz und usage.reasoning_tokens, und migrieren Sie vor dem 15. Mai.

DEV Community

Grok 4.3 API Nutzung: Eine Anleitung

TL;DR

Was sich in Grok 4.3 geändert hat

Voraussetzungen

Endpunkt und Authentifizierung

Anfrageparameter

Reasoning-Aufwand richtig wählen

`low`

`medium`

`high`

Funktionsaufrufe verwenden

Videoeingabe

1M-Token-Kontext praktisch nutzen

Code-Review über große Diffs

Dokumenten-QA

Agenten-Kontext

Migration von älteren Grok-Modellen

Testen in Apidog

Ratenbegrenzungen und Backoff

FAQ

Ist Grok 4.3 Ende-zu-Ende OpenAI-kompatibel?

Unterstützt Grok 4.3 die Responses API?

Was ist das tatsächliche Kontextlimit?

Wie beeinflusst Reasoning die Latenz?

Kann ich Grok 4.3 mit Grok Voice verwenden?

Was passiert mit alten Grok-3- oder Grok-4-Aufrufen nach dem 15. Mai?

Unterstützt Grok 4.3 Bildeingabe?

Zusammenfassung

Top comments (0)