Emre Demir

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4 API: Anleitung zur Nutzung

DeepSeek V4 ist ab Tag 1 per API verfügbar. Die Modell-IDs sind deepseek-v4-pro und deepseek-v4-flash, der Endpunkt ist OpenAI-kompatibel mit der Basis-URL https://api.deepseek.com. Sie können bestehende OpenAI-Clients direkt nutzen, indem Sie nur die Basis-URL ändern.

Teste Apidog noch heute

In diesem Leitfaden finden Sie konkrete Schritte zur Authentifizierung, zu Parametern, Python- und Node-Beispielen, Denkmodi, Tool-Calls, Streaming und einen Apidog-Workflow zur Kostenkontrolle.

Produktübersicht: Was ist DeepSeek V4. Kostenlos testen: Wie man DeepSeek V4 kostenlos nutzt.

TL;DR

DeepSeek V4 ist über den OpenAI-kompatiblen Endpunkt https://api.deepseek.com/v1/chat/completions oder den Anthropic-kompatiblen Endpunkt https://api.deepseek.com/anthropic erreichbar.
Modell-IDs: deepseek-v4-pro (1.6T gesamt, 49B aktiv), deepseek-v4-flash (284B gesamt, 13B aktiv)
Beide Varianten: 1M Token Kontext, Denkmodi: non-thinking, thinking, thinking_max
Setzen Sie temperature=1.0, top_p=1.0, wie von DeepSeek empfohlen.
Die IDs deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 abgeschaltet – rechtzeitig migrieren.
Apidog herunterladen für reproduzierbare Anfragen, Denkmodus-Vergleiche und sicheren Umgang mit API-Schlüsseln.

Voraussetzungen

Vor dem ersten API-Call benötigen Sie:

Ein DeepSeek-Entwicklerkonto auf platform.deepseek.com mit mindestens $2 Guthaben. Ohne Guthaben: 402 Insufficient Balance.
Einen projektspezifischen API-Key. Nutzen Sie keine Kontoschlüssel für Produktion.
Ein SDK, das OpenAI-kompatible Basis-URLs erlaubt: z.B. Python openai>=1.30.0, Node openai@4.x.
Einen API-Client für wiederholbare Anfragen. Nach dem ersten curl-Aufruf empfiehlt sich Apidog.

Key exportieren:

export DEEPSEEK_API_KEY="sk-..."

Endpunkt und Authentifizierung

Zwei relevante Endpunkte:

POST https://api.deepseek.com/v1/chat/completions    # OpenAI-Format
POST https://api.deepseek.com/anthropic/v1/messages  # Anthropic-Format

Empfohlen: OpenAI-Format, sofern Sie nicht bereits Anthropic nutzen. Authentifizierung via Bearer-Token im Authorization-Header.

Minimalbeispiel:

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Explain MoE routing in two sentences."}
    ]
  }'

Antworten enthalten ein choices-Array, einen usage-Block (inkl. reasoning_tokens bei Denkmodus) und eine id. Fehler kommen im OpenAI-Fehlerformat.

Anfrageparameter

Alle Felder wirken auf Kosten und Verhalten:

Parameter	Typ	Werte	Hinweise
`model`	String	`deepseek-v4-pro`, `deepseek-v4-flash`	Erforderlich.
`messages`	Array	Rollen-/Inhaltspaare	Erforderlich. Gleiches Schema wie OpenAI.
`thinking_mode`	String	`non-thinking`, `thinking`, `thinking_max`	Standard ist `non-thinking`.
`temperature`	Float	0 bis 2	DeepSeek empfiehlt 1.0.
`top_p`	Float	0 bis 1	DeepSeek empfiehlt 1.0.
`max_tokens`	Integer	1 bis 131.072	Begrenzt die Ausgabelänge.
`stream`	Boolesch	true oder false	Aktiviert SSE-Streaming.
`tools`	Array	OpenAI Tool-Spezifikation	Für Funktionsaufrufe.
`tool_choice`	String oder Objekt	`auto`, `required`, `none` oder spezifisches Tool	Steuert die Tool-Nutzung.
`response_format`	Objekt	`{"type": "json_object"}`	JSON-Modus-Ausgabe.
`seed`	Integer	beliebige Integer-Zahl	Für Reproduzierbarkeit.
`presence_penalty`	Float	-2 bis 2	Bestraft wiederholte Themen.
`frequency_penalty`	Float	-2 bis 2	Bestraft wiederholte Tokens.

Wichtig: thinking_mode ist der größte Kostentreiber.

non-thinking = schnell & günstig, keine Argumentationsspur.
thinking = mehr Genauigkeit bei Code/Mathematik, zusätzliche Tokens.
thinking_max = teuer, maximales Kontextbudget (384K+), höchste Qualität.

Python-Client

Das offizielle openai-SDK funktioniert mit angepasster Basis-URL:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Reply in code only."},
        {"role": "user", "content": "Write a Rust function that debounces events."},
    ],
    extra_body={"thinking_mode": "thinking"},
    temperature=1.0,
    top_p=1.0,
    max_tokens=2048,
)

choice = response.choices[0]
print("Content:", choice.message.content)
print("Reasoning tokens:", response.usage.reasoning_tokens)
print("Total tokens:", response.usage.total_tokens)

Mit extra_body können Sie DeepSeek-exklusive Parameter durchreichen.

Node-Client

Analog funktioniert das Node-SDK:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "user", content: "Explain the Muon optimizer in plain English." },
  ],
  thinking_mode: "thinking",
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);
console.log("Usage:", response.usage);

Unbekannte Felder wie thinking_mode werden direkt weitergereicht.

Streaming-Antworten

Für Streaming setzen Sie stream: true:

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Stream a 300-word essay on MoE."}],
    stream=True,
    extra_body={"thinking_mode": "non-thinking"},
)

for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

Bei aktiviertem Denkmodus wird die Denkspur separat als delta.reasoning_content gestreamt.

Tool-Aufruf

V4 unterstützt OpenAI Tool-Call-Schema:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Return the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"},
                "unit": {"type": "string", "enum": ["c", "f"]},
            },
            "required": ["city"],
        },
    },
}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Weather in Lagos in Celsius?"}],
    tools=tools,
    tool_choice="auto",
    extra_body={"thinking_mode": "thinking"},
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)

Nach dem Tool-Call: Funktion ausführen, Ergebnis als {"role": "tool"} anfügen und erneut an die API senden.

JSON-Modus

Für strukturierte JSON-Ausgaben:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "Reply with a single JSON object."},
        {"role": "user", "content": "Summarize this release note as {title, date, bullets}: ..."},
    ],
    response_format={"type": "json_object"},
    extra_body={"thinking_mode": "non-thinking"},
)

Das Modell liefert gültiges JSON, aber keine Schemavalidierung – prüfen Sie ggf. clientseitig.

Sammlung in Apidog erstellen

Wiederholbare Requests und Kostenkontrolle mit Apidog:

Apidog herunterladen und Projekt anlegen.
Umgebung mit {{DEEPSEEK_API_KEY}} als Secret-Variable anlegen.
POST-Request an {{BASE_URL}}/chat/completions mit Header Authorization: Bearer {{DEEPSEEK_API_KEY}} speichern.
model und thinking_mode als Parameter einrichten – für schnelle A/B-Tests.
Im Antwort-Viewer usage.reasoning_tokens checken, um Denkmodus-Kosten zu kontrollieren.

Nutzen Sie bestehende GPT-5.5 API-Sammlungen als Vorlage – nur Basis-URL und Modell-ID tauschen.

Fehlerbehandlung

Antworten entsprechen OpenAI-Fehlern:

Code	Bedeutung	Behebung
400	Ungültige Anfrage	JSON-Schema prüfen, v. a. `messages` und `tools`.
401	Ungültiger Schlüssel	Key neu generieren auf platform.deepseek.com.
402	Ungenügendes Guthaben	Aufladen.
403	Modell nicht erlaubt	Scope und Schreibweise prüfen.
422	Parameter außerhalb des Bereichs	`max_tokens` oder `thinking_mode` prüfen.
429	Ratenbegrenzung	Mit exponentiellem Jitter erneut versuchen.
500	Serverfehler	Einmal wiederholen, sonst Statusseite prüfen.
503	Überlastet	Auf V4-Flash wechseln oder nach 30s erneut versuchen.

Implementieren Sie einen Retry-Helper mit exponentiellem Backoff für 429 und 5xx. 4xx-Fehler immer manuell prüfen.

Muster zur Kostenkontrolle

Standardmäßig V4-Flash nutzen. Nur auf V4-Pro wechseln, wenn die Qualität messbar besser ist.
thinking_max nur per Flag zulassen. Sehr teuer, nur wenn Korrektheit > Latenz.
max_tokens limitieren. 2.000 Output-Tokens reichen meist, 1M-Kontext ist für Input gedacht.
usage immer loggen. Tracken Sie Eingabe-, Ausgabe- und Reasoning-Tokens – Alarm bei Ausreißern.

Migration von älteren DeepSeek-Modellen

Die Modelle deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 eingestellt. Migration: Modell-ID austauschen, Aufrufstruktur bleibt gleich.

-  model="deepseek-chat"
+  model="deepseek-v4-pro"

Vor Produktion: Side-by-Side A/B-Tests in Apidog fahren. Die Deadline erzwingt Migration ohnehin.

FAQ

Ist die DeepSeek V4 API produktionsreif?

Ja, seit 23. April 2026 produktiv. Die API ist stabil und basiert auf bewährter Infrastruktur.

Unterstützt V4 das Anthropic-Nachrichtenformat?

Ja, über https://api.deepseek.com/anthropic/v1/messages. Beide Formate greifen auf dasselbe Modell zu.

Was ist das Kontextfenster?

1 Million Tokens für V4-Pro und V4-Flash. thinking_max benötigt mindestens 384K Kontext.

Wie zähle ich Eingabe-Tokens vor dem Senden?

Für Näherungen: Standard-OpenAI-Tokenizer. Exakte Zahlen liefert der usage-Block jeder Antwort.

Kann ich Fine-Tuning via API machen?

Zum Start nicht. Fine-Tuning aktuell nur über selbst gehostete Modelle auf Hugging Face.

Gibt es einen kostenlosen API-Test?

Keine kostenlose Stufe, aber gelegentlich Startguthaben für neue Accounts.

DEV Community