DeepSeek V4 ist ab Tag 1 per API verfügbar. Die Modell-IDs sind deepseek-v4-pro und deepseek-v4-flash, der Endpunkt ist OpenAI-kompatibel mit der Basis-URL https://api.deepseek.com. Sie können bestehende OpenAI-Clients direkt nutzen, indem Sie nur die Basis-URL ändern.
In diesem Leitfaden finden Sie konkrete Schritte zur Authentifizierung, zu Parametern, Python- und Node-Beispielen, Denkmodi, Tool-Calls, Streaming und einen Apidog-Workflow zur Kostenkontrolle.
<!--kg-card-begin: html-->
<!--kg-card-end: html-->
Produktübersicht: Was ist DeepSeek V4. Kostenlos testen: Wie man DeepSeek V4 kostenlos nutzt.
TL;DR
- DeepSeek V4 ist über den OpenAI-kompatiblen Endpunkt
https://api.deepseek.com/v1/chat/completionsoder den Anthropic-kompatiblen Endpunkthttps://api.deepseek.com/anthropicerreichbar. - Modell-IDs:
deepseek-v4-pro(1.6T gesamt, 49B aktiv),deepseek-v4-flash(284B gesamt, 13B aktiv) - Beide Varianten: 1M Token Kontext, Denkmodi:
non-thinking,thinking,thinking_max - Setzen Sie
temperature=1.0, top_p=1.0, wie von DeepSeek empfohlen. - Die IDs
deepseek-chatunddeepseek-reasonerwerden am 24. Juli 2026 abgeschaltet – rechtzeitig migrieren. - Apidog herunterladen für reproduzierbare Anfragen, Denkmodus-Vergleiche und sicheren Umgang mit API-Schlüsseln.
Voraussetzungen
Vor dem ersten API-Call benötigen Sie:
- Ein DeepSeek-Entwicklerkonto auf platform.deepseek.com mit mindestens $2 Guthaben. Ohne Guthaben:
402 Insufficient Balance. - Einen projektspezifischen API-Key. Nutzen Sie keine Kontoschlüssel für Produktion.
- Ein SDK, das OpenAI-kompatible Basis-URLs erlaubt: z.B. Python
openai>=1.30.0, Nodeopenai@4.x. - Einen API-Client für wiederholbare Anfragen. Nach dem ersten curl-Aufruf empfiehlt sich Apidog.
Key exportieren:
export DEEPSEEK_API_KEY="sk-..."
Endpunkt und Authentifizierung
Zwei relevante Endpunkte:
POST https://api.deepseek.com/v1/chat/completions # OpenAI-Format
POST https://api.deepseek.com/anthropic/v1/messages # Anthropic-Format
Empfohlen: OpenAI-Format, sofern Sie nicht bereits Anthropic nutzen. Authentifizierung via Bearer-Token im Authorization-Header.
Minimalbeispiel:
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Explain MoE routing in two sentences."}
]
}'
Antworten enthalten ein choices-Array, einen usage-Block (inkl. reasoning_tokens bei Denkmodus) und eine id. Fehler kommen im OpenAI-Fehlerformat.
Anfrageparameter
Alle Felder wirken auf Kosten und Verhalten:
| Parameter | Typ | Werte | Hinweise |
|---|---|---|---|
model |
String |
deepseek-v4-pro, deepseek-v4-flash
|
Erforderlich. |
messages |
Array | Rollen-/Inhaltspaare | Erforderlich. Gleiches Schema wie OpenAI. |
thinking_mode |
String |
non-thinking, thinking, thinking_max
|
Standard ist non-thinking. |
temperature |
Float | 0 bis 2 | DeepSeek empfiehlt 1.0. |
top_p |
Float | 0 bis 1 | DeepSeek empfiehlt 1.0. |
max_tokens |
Integer | 1 bis 131.072 | Begrenzt die Ausgabelänge. |
stream |
Boolesch | true oder false | Aktiviert SSE-Streaming. |
tools |
Array | OpenAI Tool-Spezifikation | Für Funktionsaufrufe. |
tool_choice |
String oder Objekt |
auto, required, none oder spezifisches Tool |
Steuert die Tool-Nutzung. |
response_format |
Objekt | {"type": "json_object"} |
JSON-Modus-Ausgabe. |
seed |
Integer | beliebige Integer-Zahl | Für Reproduzierbarkeit. |
presence_penalty |
Float | -2 bis 2 | Bestraft wiederholte Themen. |
frequency_penalty |
Float | -2 bis 2 | Bestraft wiederholte Tokens. |
Wichtig: thinking_mode ist der größte Kostentreiber.
-
non-thinking= schnell & günstig, keine Argumentationsspur. -
thinking= mehr Genauigkeit bei Code/Mathematik, zusätzliche Tokens. -
thinking_max= teuer, maximales Kontextbudget (384K+), höchste Qualität.
Python-Client
Das offizielle openai-SDK funktioniert mit angepasster Basis-URL:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "Reply in code only."},
{"role": "user", "content": "Write a Rust function that debounces events."},
],
extra_body={"thinking_mode": "thinking"},
temperature=1.0,
top_p=1.0,
max_tokens=2048,
)
choice = response.choices[0]
print("Content:", choice.message.content)
print("Reasoning tokens:", response.usage.reasoning_tokens)
print("Total tokens:", response.usage.total_tokens)
Mit extra_body können Sie DeepSeek-exklusive Parameter durchreichen.
Node-Client
Analog funktioniert das Node-SDK:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [
{ role: "user", content: "Explain the Muon optimizer in plain English." },
],
thinking_mode: "thinking",
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
console.log("Usage:", response.usage);
Unbekannte Felder wie thinking_mode werden direkt weitergereicht.
Streaming-Antworten
Für Streaming setzen Sie stream: true:
stream = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Stream a 300-word essay on MoE."}],
stream=True,
extra_body={"thinking_mode": "non-thinking"},
)
for chunk in stream:
delta = chunk.choices[0].delta.content or ""
print(delta, end="", flush=True)
Bei aktiviertem Denkmodus wird die Denkspur separat als delta.reasoning_content gestreamt.
Tool-Aufruf
V4 unterstützt OpenAI Tool-Call-Schema:
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "Return the current weather for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string"},
"unit": {"type": "string", "enum": ["c", "f"]},
},
"required": ["city"],
},
},
}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Weather in Lagos in Celsius?"}],
tools=tools,
tool_choice="auto",
extra_body={"thinking_mode": "thinking"},
)
tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)
Nach dem Tool-Call: Funktion ausführen, Ergebnis als {"role": "tool"} anfügen und erneut an die API senden.
JSON-Modus
Für strukturierte JSON-Ausgaben:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "Reply with a single JSON object."},
{"role": "user", "content": "Summarize this release note as {title, date, bullets}: ..."},
],
response_format={"type": "json_object"},
extra_body={"thinking_mode": "non-thinking"},
)
Das Modell liefert gültiges JSON, aber keine Schemavalidierung – prüfen Sie ggf. clientseitig.
Sammlung in Apidog erstellen
Wiederholbare Requests und Kostenkontrolle mit Apidog:
- Apidog herunterladen und Projekt anlegen.
- Umgebung mit
{{DEEPSEEK_API_KEY}}als Secret-Variable anlegen. - POST-Request an
{{BASE_URL}}/chat/completionsmit HeaderAuthorization: Bearer {{DEEPSEEK_API_KEY}}speichern. -
modelundthinking_modeals Parameter einrichten – für schnelle A/B-Tests. - Im Antwort-Viewer
usage.reasoning_tokenschecken, um Denkmodus-Kosten zu kontrollieren.
Nutzen Sie bestehende GPT-5.5 API-Sammlungen als Vorlage – nur Basis-URL und Modell-ID tauschen.
Fehlerbehandlung
Antworten entsprechen OpenAI-Fehlern:
| Code | Bedeutung | Behebung |
|---|---|---|
| 400 | Ungültige Anfrage | JSON-Schema prüfen, v. a. messages und tools. |
| 401 | Ungültiger Schlüssel | Key neu generieren auf platform.deepseek.com. |
| 402 | Ungenügendes Guthaben | Aufladen. |
| 403 | Modell nicht erlaubt | Scope und Schreibweise prüfen. |
| 422 | Parameter außerhalb des Bereichs |
max_tokens oder thinking_mode prüfen. |
| 429 | Ratenbegrenzung | Mit exponentiellem Jitter erneut versuchen. |
| 500 | Serverfehler | Einmal wiederholen, sonst Statusseite prüfen. |
| 503 | Überlastet | Auf V4-Flash wechseln oder nach 30s erneut versuchen. |
Implementieren Sie einen Retry-Helper mit exponentiellem Backoff für 429 und 5xx. 4xx-Fehler immer manuell prüfen.
Muster zur Kostenkontrolle
- Standardmäßig V4-Flash nutzen. Nur auf V4-Pro wechseln, wenn die Qualität messbar besser ist.
-
thinking_maxnur per Flag zulassen. Sehr teuer, nur wenn Korrektheit > Latenz. -
max_tokenslimitieren. 2.000 Output-Tokens reichen meist, 1M-Kontext ist für Input gedacht. -
usageimmer loggen. Tracken Sie Eingabe-, Ausgabe- und Reasoning-Tokens – Alarm bei Ausreißern.
Migration von älteren DeepSeek-Modellen
Die Modelle deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 eingestellt. Migration: Modell-ID austauschen, Aufrufstruktur bleibt gleich.
- model="deepseek-chat"
+ model="deepseek-v4-pro"
Vor Produktion: Side-by-Side A/B-Tests in Apidog fahren. Die Deadline erzwingt Migration ohnehin.
FAQ
Ist die DeepSeek V4 API produktionsreif?
Ja, seit 23. April 2026 produktiv. Die API ist stabil und basiert auf bewährter Infrastruktur.
Unterstützt V4 das Anthropic-Nachrichtenformat?
Ja, über https://api.deepseek.com/anthropic/v1/messages. Beide Formate greifen auf dasselbe Modell zu.
Was ist das Kontextfenster?
1 Million Tokens für V4-Pro und V4-Flash. thinking_max benötigt mindestens 384K Kontext.
Wie zähle ich Eingabe-Tokens vor dem Senden?
Für Näherungen: Standard-OpenAI-Tokenizer. Exakte Zahlen liefert der usage-Block jeder Antwort.
Kann ich Fine-Tuning via API machen?
Zum Start nicht. Fine-Tuning aktuell nur über selbst gehostete Modelle auf Hugging Face.
Gibt es einen kostenlosen API-Test?
Keine kostenlose Stufe, aber gelegentlich Startguthaben für neue Accounts.

Top comments (0)