DEV Community

Cover image for DeepSeek V4 API: Anleitung zur Nutzung
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

DeepSeek V4 API: Anleitung zur Nutzung

DeepSeek V4 ist ab Tag 1 per API verfügbar. Die Modell-IDs sind deepseek-v4-pro und deepseek-v4-flash, der Endpunkt ist OpenAI-kompatibel mit der Basis-URL https://api.deepseek.com. Sie können bestehende OpenAI-Clients direkt nutzen, indem Sie nur die Basis-URL ändern.

Teste Apidog noch heute

In diesem Leitfaden finden Sie konkrete Schritte zur Authentifizierung, zu Parametern, Python- und Node-Beispielen, Denkmodi, Tool-Calls, Streaming und einen Apidog-Workflow zur Kostenkontrolle.

<!--kg-card-begin: html-->




<!--kg-card-end: html-->

Produktübersicht: Was ist DeepSeek V4. Kostenlos testen: Wie man DeepSeek V4 kostenlos nutzt.

TL;DR

  • DeepSeek V4 ist über den OpenAI-kompatiblen Endpunkt https://api.deepseek.com/v1/chat/completions oder den Anthropic-kompatiblen Endpunkt https://api.deepseek.com/anthropic erreichbar.
  • Modell-IDs: deepseek-v4-pro (1.6T gesamt, 49B aktiv), deepseek-v4-flash (284B gesamt, 13B aktiv)
  • Beide Varianten: 1M Token Kontext, Denkmodi: non-thinking, thinking, thinking_max
  • Setzen Sie temperature=1.0, top_p=1.0, wie von DeepSeek empfohlen.
  • Die IDs deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 abgeschaltet – rechtzeitig migrieren.
  • Apidog herunterladen für reproduzierbare Anfragen, Denkmodus-Vergleiche und sicheren Umgang mit API-Schlüsseln.

Voraussetzungen

Vor dem ersten API-Call benötigen Sie:

  • Ein DeepSeek-Entwicklerkonto auf platform.deepseek.com mit mindestens $2 Guthaben. Ohne Guthaben: 402 Insufficient Balance.
  • Einen projektspezifischen API-Key. Nutzen Sie keine Kontoschlüssel für Produktion.
  • Ein SDK, das OpenAI-kompatible Basis-URLs erlaubt: z.B. Python openai>=1.30.0, Node openai@4.x.
  • Einen API-Client für wiederholbare Anfragen. Nach dem ersten curl-Aufruf empfiehlt sich Apidog.

Key exportieren:

export DEEPSEEK_API_KEY="sk-..."
Enter fullscreen mode Exit fullscreen mode

Endpunkt und Authentifizierung

Zwei relevante Endpunkte:

POST https://api.deepseek.com/v1/chat/completions    # OpenAI-Format
POST https://api.deepseek.com/anthropic/v1/messages  # Anthropic-Format
Enter fullscreen mode Exit fullscreen mode

Empfohlen: OpenAI-Format, sofern Sie nicht bereits Anthropic nutzen. Authentifizierung via Bearer-Token im Authorization-Header.

Minimalbeispiel:

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Explain MoE routing in two sentences."}
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Antworten enthalten ein choices-Array, einen usage-Block (inkl. reasoning_tokens bei Denkmodus) und eine id. Fehler kommen im OpenAI-Fehlerformat.

Anfrageparameter

Alle Felder wirken auf Kosten und Verhalten:

Parameter Typ Werte Hinweise
model String deepseek-v4-pro, deepseek-v4-flash Erforderlich.
messages Array Rollen-/Inhaltspaare Erforderlich. Gleiches Schema wie OpenAI.
thinking_mode String non-thinking, thinking, thinking_max Standard ist non-thinking.
temperature Float 0 bis 2 DeepSeek empfiehlt 1.0.
top_p Float 0 bis 1 DeepSeek empfiehlt 1.0.
max_tokens Integer 1 bis 131.072 Begrenzt die Ausgabelänge.
stream Boolesch true oder false Aktiviert SSE-Streaming.
tools Array OpenAI Tool-Spezifikation Für Funktionsaufrufe.
tool_choice String oder Objekt auto, required, none oder spezifisches Tool Steuert die Tool-Nutzung.
response_format Objekt {"type": "json_object"} JSON-Modus-Ausgabe.
seed Integer beliebige Integer-Zahl Für Reproduzierbarkeit.
presence_penalty Float -2 bis 2 Bestraft wiederholte Themen.
frequency_penalty Float -2 bis 2 Bestraft wiederholte Tokens.

Wichtig: thinking_mode ist der größte Kostentreiber.

  • non-thinking = schnell & günstig, keine Argumentationsspur.
  • thinking = mehr Genauigkeit bei Code/Mathematik, zusätzliche Tokens.
  • thinking_max = teuer, maximales Kontextbudget (384K+), höchste Qualität.

Python-Client

Das offizielle openai-SDK funktioniert mit angepasster Basis-URL:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Reply in code only."},
        {"role": "user", "content": "Write a Rust function that debounces events."},
    ],
    extra_body={"thinking_mode": "thinking"},
    temperature=1.0,
    top_p=1.0,
    max_tokens=2048,
)

choice = response.choices[0]
print("Content:", choice.message.content)
print("Reasoning tokens:", response.usage.reasoning_tokens)
print("Total tokens:", response.usage.total_tokens)
Enter fullscreen mode Exit fullscreen mode

Mit extra_body können Sie DeepSeek-exklusive Parameter durchreichen.

Node-Client

Analog funktioniert das Node-SDK:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [
    { role: "user", content: "Explain the Muon optimizer in plain English." },
  ],
  thinking_mode: "thinking",
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);
console.log("Usage:", response.usage);
Enter fullscreen mode Exit fullscreen mode

Unbekannte Felder wie thinking_mode werden direkt weitergereicht.

Streaming-Antworten

Für Streaming setzen Sie stream: true:

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Stream a 300-word essay on MoE."}],
    stream=True,
    extra_body={"thinking_mode": "non-thinking"},
)

for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

Bei aktiviertem Denkmodus wird die Denkspur separat als delta.reasoning_content gestreamt.

Tool-Aufruf

V4 unterstützt OpenAI Tool-Call-Schema:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Return the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"},
                "unit": {"type": "string", "enum": ["c", "f"]},
            },
            "required": ["city"],
        },
    },
}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Weather in Lagos in Celsius?"}],
    tools=tools,
    tool_choice="auto",
    extra_body={"thinking_mode": "thinking"},
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)
Enter fullscreen mode Exit fullscreen mode

Nach dem Tool-Call: Funktion ausführen, Ergebnis als {"role": "tool"} anfügen und erneut an die API senden.

JSON-Modus

Für strukturierte JSON-Ausgaben:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "Reply with a single JSON object."},
        {"role": "user", "content": "Summarize this release note as {title, date, bullets}: ..."},
    ],
    response_format={"type": "json_object"},
    extra_body={"thinking_mode": "non-thinking"},
)
Enter fullscreen mode Exit fullscreen mode

Das Modell liefert gültiges JSON, aber keine Schemavalidierung – prüfen Sie ggf. clientseitig.

Sammlung in Apidog erstellen

Wiederholbare Requests und Kostenkontrolle mit Apidog:

  1. Apidog herunterladen und Projekt anlegen.
  2. Umgebung mit {{DEEPSEEK_API_KEY}} als Secret-Variable anlegen.
  3. POST-Request an {{BASE_URL}}/chat/completions mit Header Authorization: Bearer {{DEEPSEEK_API_KEY}} speichern.
  4. model und thinking_mode als Parameter einrichten – für schnelle A/B-Tests.
  5. Im Antwort-Viewer usage.reasoning_tokens checken, um Denkmodus-Kosten zu kontrollieren.

Nutzen Sie bestehende GPT-5.5 API-Sammlungen als Vorlage – nur Basis-URL und Modell-ID tauschen.

Fehlerbehandlung

Antworten entsprechen OpenAI-Fehlern:

Code Bedeutung Behebung
400 Ungültige Anfrage JSON-Schema prüfen, v. a. messages und tools.
401 Ungültiger Schlüssel Key neu generieren auf platform.deepseek.com.
402 Ungenügendes Guthaben Aufladen.
403 Modell nicht erlaubt Scope und Schreibweise prüfen.
422 Parameter außerhalb des Bereichs max_tokens oder thinking_mode prüfen.
429 Ratenbegrenzung Mit exponentiellem Jitter erneut versuchen.
500 Serverfehler Einmal wiederholen, sonst Statusseite prüfen.
503 Überlastet Auf V4-Flash wechseln oder nach 30s erneut versuchen.

Implementieren Sie einen Retry-Helper mit exponentiellem Backoff für 429 und 5xx. 4xx-Fehler immer manuell prüfen.

Muster zur Kostenkontrolle

  1. Standardmäßig V4-Flash nutzen. Nur auf V4-Pro wechseln, wenn die Qualität messbar besser ist.
  2. thinking_max nur per Flag zulassen. Sehr teuer, nur wenn Korrektheit > Latenz.
  3. max_tokens limitieren. 2.000 Output-Tokens reichen meist, 1M-Kontext ist für Input gedacht.
  4. usage immer loggen. Tracken Sie Eingabe-, Ausgabe- und Reasoning-Tokens – Alarm bei Ausreißern.

Migration von älteren DeepSeek-Modellen

Die Modelle deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 eingestellt. Migration: Modell-ID austauschen, Aufrufstruktur bleibt gleich.

-  model="deepseek-chat"
+  model="deepseek-v4-pro"
Enter fullscreen mode Exit fullscreen mode

Vor Produktion: Side-by-Side A/B-Tests in Apidog fahren. Die Deadline erzwingt Migration ohnehin.

FAQ

Ist die DeepSeek V4 API produktionsreif?

Ja, seit 23. April 2026 produktiv. Die API ist stabil und basiert auf bewährter Infrastruktur.

Unterstützt V4 das Anthropic-Nachrichtenformat?

Ja, über https://api.deepseek.com/anthropic/v1/messages. Beide Formate greifen auf dasselbe Modell zu.

Was ist das Kontextfenster?

1 Million Tokens für V4-Pro und V4-Flash. thinking_max benötigt mindestens 384K Kontext.

Wie zähle ich Eingabe-Tokens vor dem Senden?

Für Näherungen: Standard-OpenAI-Tokenizer. Exakte Zahlen liefert der usage-Block jeder Antwort.

Kann ich Fine-Tuning via API machen?

Zum Start nicht. Fine-Tuning aktuell nur über selbst gehostete Modelle auf Hugging Face.

Gibt es einen kostenlosen API-Test?

Keine kostenlose Stufe, aber gelegentlich Startguthaben für neue Accounts.

Top comments (0)