DeepSeek V4 wurde am 23. April 2026 mit vier Checkpoints, einer Live-API und MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Sie haben damit die Wahl zwischen sofortigem Zugriff per Web, Produktions-API oder On-Premise-Betrieb. Hier finden Sie einen praxisorientierten Leitfaden für alle drei Optionen, mit klaren Empfehlungen, Fallstricken und einem wiederverwendbaren Prompt-Workflow.
Probiere Apidog noch heute aus
Für einen Produktüberblick starten Sie mit was ist DeepSeek V4. Die reine API-Anleitung finden Sie im DeepSeek V4 API-Leitfaden. Für den kostenlosen Zugang, siehe wie man DeepSeek V4 kostenlos nutzt. Zum Testen von echten Anfragen holen Sie sich Apidog und erstellen Sie eine Sammlung.
TL;DR
- Schnellster Weg: chat.deepseek.com. Kostenloser Web-Chat, V4-Pro als Standard, drei Denkmodi.
- Produktionsweg:
https://api.deepseek.com/v1/chat/completionsmitdeepseek-v4-prooderdeepseek-v4-flashals Modell-IDs. - Self-Hosted: Gewichte über Hugging Face laden und
/inference-Skripte nutzen. - Nutzen Sie Non-Think für Routing/Klassifizierung, Think High für Code/Analyse, Think Max nur, wenn höchste Genauigkeit gefragt ist.
- Empfohlene Sampling-Parameter:
temperature=1.0, top_p=1.0. - Apidog als API-Client verwenden; OpenAI-Format ermöglicht einfaches Umschalten zwischen DeepSeek, OpenAI, Anthropic.
Wählen Sie den richtigen Pfad für Ihre Arbeitslast
Vier Wege, jeweils für unterschiedliche Anforderungen:
| Pfad | Kosten | Einrichtungszeit | Am besten für |
|---|---|---|---|
| chat.deepseek.com | Kostenlos | 30 Sekunden | Schnelle Tests, Ad-hoc-Arbeiten |
| DeepSeek API | Pro-Token-Abrechnung | 5 Minuten | Produktion, Agenten, Batch-Jobs |
| Self-hosted V4-Flash | Nur Hardwarekosten | Einige Stunden | On-Premise-Compliance, Offline-Inferenz |
| Self-hosted V4-Pro | Nur Clusterkosten | Ein Tag | Forschung, kundenspezifische Fine-Tunes |
| OpenRouter / Aggregator | Pro-Token-Abrechnung | 2 Minuten | Multi-Anbieter-Fallback |
Pfad 1: V4 im Web-Chat nutzen
- Gehen Sie zu chat.deepseek.com.
- Melden Sie sich mit E-Mail, Google oder WeChat an.
- V4-Pro ist Standard. Modus oben im Eingabefeld: Non-Think, Think High, Think Max.
- Prompt eingeben, ausführen.
Web-Chat unterstützt Datei-Uploads, Websuche und 1M-Token-Kontext. Ratenlimits gelten pro Konto – hohe Nutzung kann Antworten verzögern, blockiert aber selten vollständig.
Typische Use-Cases: Fehler-Traces analysieren, PDFs zusammenfassen, Benchmarks mit identischem Prompt wie GPT-5.5 oder Claude. Nicht geeignet für Automatisierung oder wiederholbare Workflows.
Pfad 2: Die DeepSeek API nutzen
Empfohlener Weg für Teams: OpenAI-kompatible API, stabile Modell-IDs.
API-Schlüssel generieren
- Registrieren unter platform.deepseek.com.
- Zahlungsmethode hinzufügen (min. 2 $).
- API-Schlüssel unter API Keys erzeugen und sichern.
Schlüssel als Umgebungsvariable bereitstellen:
export DEEPSEEK_API_KEY="sk-..."
Minimalbeispiel (cURL)
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
deepseek-v4-pro gegen deepseek-v4-flash tauschen, je nach Bedarf. thinking gegen non-thinking wechseln für schnellen Modus.
Python-Client
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Node-Client
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
Weitere Details und Fehlerbehandlung im DeepSeek V4 API-Leitfaden.
Pfad 3: Mit Apidog iterieren
cURL reicht für einen Test, aber für produktive API-Workflows ist Apidog effizienter und wiederholbar.
- Laden Sie Apidog für Mac, Windows oder Linux herunter.
- Neues API-Projekt anlegen, POST-Request auf
https://api.deepseek.com/v1/chat/completions. -
Authorization: Bearer {{DEEPSEEK_API_KEY}}als Header, Schlüssel in Umgebungsvariablen speichern. - JSON-Body einfügen, speichern, per Klick wiederholen.
- Antwort-Viewer nutzen, um Non-Think- und Think Max-Runs mit identischem Prompt zu vergleichen.
Sie können OpenAI GPT-5.5, Claude und DeepSeek V4 parallel in einer Sammlung testen. A/B-Tests über Anbieter hinweg und Abrechnung bleiben im Blick. Für bestehende Apidog-Workflows reicht oft eine Basis-URL-Änderung. Siehe GPT-5.5 API-Sammlung für Details.
Pfad 4: V4-Flash selbst hosten
Für Air-Gap/Compliance oder reine Kostenkontrolle: MIT-Lizenz erlaubt vollständige Eigenkontrolle.
Hardware-Anforderungen
- V4-Flash (13B aktiv, 284B gesamt): 2–4 H100/H200/MI300X bei FP8. Mit INT4 auf eine 80GB-Karte, kleine Batches.
- V4-Pro (49B aktiv, 1.6T gesamt): Cluster-Betrieb, 16–32 H100 für Produktion.
Gewichte laden
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-Flash ca. 500 GB (FP8), V4-Pro Multi-TB.
Inferenz starten
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
OpenAI-kompatible Clients auf http://localhost:8000/v1 zeigen. Gleiches Apidog-Projekt, andere Basis-URL.
V4 effektiv prompten
-
Denkmodus explizit setzen:
thinking_modeimmer passend zur Aufgabe angeben. - System-Prompts für Persona, Aufgaben in User-Message: Für Aufgabenbeschreibung die User-Message nutzen, System für Ton/Persona.
- Code-Aufgaben mit Test-Harness eingeben: Geben Sie Testfälle mit an, um bessere Ergebnisse zu erhalten.
Bei langem Kontext: Das wichtigste Material an den Anfang und das Ende der Eingabe setzen. V4 nutzt hybride Aufmerksamkeit, aber Reihenfolge bleibt relevant.
Kostenkontrolle
- Standardmäßig V4-Flash nutzen. V4-Pro nur, wenn messbar besser.
- Standardmäßig Non-Think. Think High/Max nur nach Bedarf.
-
max_tokensbegrenzen. 1M ist das Maximum, meist reichen 2.000 Output-Tokens.
In Apidog Umgebungsvariablen für Schlüssel nutzen; so trennen Sie Test- und Produktionsabrechnung. Apidog zeigt die Token-Anzahl jeder Antwort an – ideal zur Erkennung von zu langen Prompts.
Migration von DeepSeek V3 oder anderen Modellen
-
Von
deepseek-chat/deepseek-reasoner: Modell-ID aufdeepseek-v4-prooderdeepseek-v4-flashändern. Alte IDs laufen am 24. Juli 2026 aus. -
Von OpenAI GPT-5.x: Basis-URL auf
https://api.deepseek.com/v1, Modell-ID anpassen, sonst alles gleich. Siehe GPT-5.5 API-Leitfaden für Details. -
Von Anthropic Claude:
https://api.deepseek.com/anthropicverwenden oder Nachrichten ins OpenAI-Format übertragen.
FAQ
Benötige ich ein kostenpflichtiges Konto, um V4 zu nutzen? Web-Chat ist kostenlos. Für API sind mindestens 2 $ notwendig. Siehe kostenlos nutzen für Gratis-Wege.
Welche Variante sollte ich standardmäßig verwenden? Starten Sie mit V4-Flash im Non-Think-Modus. Messen, dann ggf. wechseln.
Kann ich V4 auf meinem MacBook ausführen? V4-Flash läuft auf M3/M4 Max mit 128 GB RAM (starke Quantisierung, langsam). V4-Pro nicht. Für Laptops: API oder Web-Chat nutzen.
Unterstützt V4 Tools/Funktionsaufrufe? Ja, OpenAI-kompatibler Endpunkt akzeptiert tools-Array; Antwort enthält tool_calls. Anthropic-Format nutzt natives Schema.
Wie streame ich Antworten? stream: true im Request-Body. Antwort kommt als OpenAI-kompatibler SSE-Stream, jede OpenAI-Bibliothek funktioniert direkt.
Gibt es Ratenlimits? Gehostete API: limits auf api-docs.deepseek.com. Self-Hosted: keine, außer Hardware.


Top comments (0)