Emre Demir

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4 API Preise

DeepSeek veröffentlichte die V4-Preise am selben Tag, an dem die Modelle erschienen (23. April 2026). Die Tarife setzen neue Maßstäbe: V4-Flash kostet $0,14 pro Million Eingabetokens und $0,28 pro Million Ausgabetokens, V4-Pro liegt bei $1,74 pro Eingabetokens und $3,48 pro Ausgabetokens. Beide Modelle unterstützen ein 1M-Token-Kontextfenster und bis zu 384K Ausgabetokens. Ein aggressiver Cache-Hit-Rabatt reduziert die Eingabekosten bei wiederholten Prompts um 80% bis 90%.

Probiere Apidog jetzt aus

In diesem Leitfaden findest du die vollständige Preisliste, eine technische Erklärung zum Kontext-Caching, einen direkten Kostenvergleich mit GPT-5.5 und Claude Opus sowie vier konkrete Maßnahmen, um die Ausgaben in Apidog effizient im Griff zu behalten.

Produktüberblick: Was ist DeepSeek V4.
Entwickleranleitung: Wie man die DeepSeek V4 API verwendet.
Kostenlos testen: Wie man DeepSeek V4 kostenlos nutzt.

TL;DR

V4-Flash: $0,14 / M Eingabe (Cache-Fehlzugriff), $0,028 / M Eingabe (Cache-Treffer), $0,28 / M Ausgabe.
V4-Pro: $1,74 / M Eingabe (Cache-Fehlzugriff), $0,145 / M Eingabe (Cache-Treffer), $3,48 / M Ausgabe.
Kontextfenster: 1M Tokens Eingabe, 384K Tokens Ausgabe.
Cache-Hit-Rabatt: ca. 80% Rabatt auf Flash, 92% Rabatt auf Pro bei wiederholten Präfixen.
deepseek-chat und deepseek-reasoner werden zum 24. Juli 2026 eingestellt; Abrechnung läuft über V4-Flash.
V4-Pro ist bei Cache-Fehlzugriffen etwa 2,9x günstiger als GPT-5.5 bei Eingabe und ~8,6x günstiger bei Ausgabe.

Die vollständige Preisliste

Modell	Eingabe (Cache-Fehlzugriff)	Eingabe (Cache-Treffer)	Ausgabe	Kontext
`deepseek-v4-flash`	$0,14 / M	$0,028 / M	$0,28 / M	1M / 384K
`deepseek-v4-pro`	$1,74 / M	$0,145 / M	$3,48 / M	1M / 384K
`deepseek-chat` (veraltet 24.07.2026)	entspricht V4-Flash Non-Thinking	—	—	—
`deepseek-reasoner` (veraltet 24.07.2026)	entspricht V4-Flash Thinking	—	—	—

Wichtige technische Details:

Preise sind identisch für Denk- und Nicht-Denkmodus. Die Modell-ID steuert den Tarif; der Reasoning-Modus beeinflusst nur die Token-Menge.
Cache-Hit-Preisgestaltung ist automatisch: Sobald ein Präfix (mind. 1.024 Tokens, bytegenau identisch) erneut verwendet wird, greift der Rabatt – keine Konfiguration nötig.
Die alten IDs (deepseek-chat und deepseek-reasoner) werden bereits als V4-Flash abgerechnet. Migration ist technisch nicht erforderlich, aber empfohlen.

Kontext-Caching: Technische Umsetzung

Caching ist der stärkste Kostenhebel bei DeepSeek V4. Alles, was in mehreren Anfragen identisch bleibt (System-Prompts, Tool-Schemata, RAG-Kontext), wird ab dem zweiten Aufruf zum Cache-Hit-Tarif berechnet.

Beispiel:

Agent mit 20.000 Token System-Prompt (unverändert)
100 Benutzerfragen à 200 Tokens

Ohne Caching:

Eingabe: 100 × 20.200 × $1,74 / M = $3,52
Ausgabe: 100 × 500 × $3,48 / M = $0,17
Gesamt: $3,69

Mit Caching (1 Miss, 99 Hits):

Erster Aufruf: 20.200 × $1,74 / M = $0,035
99 Cache-Hits: 99 × 20.000 × $0,145 / M = $0,287
99 Benutzerfragen: 99 × 200 × $1,74 / M = $0,034
Ausgabe: 100 × 500 × $3,48 / M = $0,174
Gesamt: $0,53

=> Rund 7x günstiger bei gleicher Nutzung. Bei V4-Flash fällt das Einsparpotenzial noch größer aus.

Vergleich mit GPT-5.5 und Claude Opus

Modell	Eingabe (Standard)	Eingabe (gecached)	Ausgabe	Kontext
DeepSeek V4-Flash	$0,14 / M	$0,028 / M	$0,28 / M	1M
DeepSeek V4-Pro	$1,74 / M	$0,145 / M	$3,48 / M	1M
GPT-5.5	$5 / M	$1,25 / M	$30 / M	1M
GPT-5.5 Pro	$30 / M	—	$180 / M	1M
Claude Opus 4.6	$15 / M	$1,50 / M	$75 / M	200K

Interpretation für die Praxis:

Ausgabetokens: V4-Pro ist ~8,6x günstiger als GPT-5.5 und ~21x günstiger als Claude Opus 4.6. Besonders relevant für agentenbasierte Workloads.
Gecachte Eingabe: V4-Pro liegt ~10x günstiger als gecachtes GPT-5.5 und Claude – relevant bei langen, gleichbleibenden Prompts.
Benchmarking: V4-Pro erreicht oder übertrifft GPT-5.5 bei LiveCodeBench und Codeforces zu einem Bruchteil der Kosten. Details: Benchmark-Tabelle.

Einschränkung: Claude bleibt stärker bei langen Kontextabfragen und Gemini 3.1 Pro bei MMLU-Pro. Bei "Needle-in-a-Haystack"-Abfragen kann Qualität wichtiger sein als Kostenvorteil.

Kostenmodellierung: Praxisbeispiele für Workloads

Vier typische Produktionsszenarien (jeweils V4-Pro, Cache-Miss-Baseline):

1. Agenten-Coding-Loop (50K Kontext, 2K Ausgabe, 20 Aufrufe/Aufgabe)

Eingabe: 50.000 × 20 × $1,74 / M = $1,74
Ausgabe: 2.000 × 20 × $3,48 / M = $0,14
Kosten pro Aufgabe: ~$1,88

(GPT-5.5: ~$6,20 pro Aufgabe)

2. Langdokument-Fragen & Antworten (500K Kontext, 1K Ausgabe)

Eingabe: 500.000 × $1,74 / M = $0,87
Ausgabe: 1.000 × $3,48 / M = $0,003
Kosten pro Aufruf: ~$0,87

(GPT-5.5: ~$2,53 pro Aufruf)

3. Hochvolumige Klassifizierung (2K Kontext, 200 Ausgabe, 10.000 Aufrufe)

Empfehlung: V4-Flash nutzen!

Eingabe: 2.000 × 10.000 × $0,14 / M = $2,80
Ausgabe: 200 × 10.000 × $0,28 / M = $0,56
Laufkosten: ~$3,36

(GPT-5.5: ~$110 pro Lauf)

4. Chatbot mit wiederholtem Prompt (10K System-Prompt, 500 User-Tokens, 1K Ausgabe, 1.000 Sitzungen)

Eingabe (erste Anfrage): 10.500 × $1,74 / M = $0,018
Cache-Hit-Eingabe: 999 × 10.000 × $0,145 / M = $1,45
Benutzerinteraktion: 999 × 500 × $1,74 / M = $0,87
Ausgabe: 1.000 × 1.000 × $3,48 / M = $3,48
Kosten pro Sitzungslauf: ~$5,82

(GPT-5.5 mit Caching: ~$26,35)

Versteckte Kosten: Die vier wichtigsten Stolpersteine

Token-Inflation im Denkmodus: thinking_max verbraucht 3-10x mehr Ausgabetokens als non-thinking. Schütze Think Max durch Feature-Flag.
Stilles Kontextwachstum: Agenten-Loops mit 1M-Kontext können schnell eskalieren. Kontext regelmäßig kürzen oder zusammenfassen.
Wiederholungsstürme: Endlosschleifen mit Retry auf 500er-Fehler verdoppeln die Kosten in kurzer Zeit. Exponentielles Backoff und Retry-Limit pro Anfrage implementieren.
Entwicklungsaufwand: Jeder Prompt-Test per Curl verursacht volle Kontextkosten. Mit Apidog kannst du Variablen substituieren und Prompts kostenfrei anpassen, ohne die gesamte Payload neu zu schicken.

Kosten-Tracking in Apidog

So behalten Entwickler die Kosten unter Kontrolle:

Apidog herunterladen und DEEPSEEK_API_KEY als geheime Umgebungsvariable speichern.
Eine einzelne POST-Anfrage an https://api.deepseek.com/v1/chat/completions anlegen.
Im Response-Bereich die Felder usage.prompt_tokens, usage.completion_tokens und usage.reasoning_tokens anpinnen. Die Kostenberechnung ist sofort sichtbar.
model und thinking_mode als Parameter definieren, um V4-Flash vs. V4-Pro und Non-Think vs. Think Max direkt im A/B-Vergleich zu testen.
Für GPT-5.5 eine identische Sammlung spiegeln (GPT-5.5 API-Leitfaden). Beide Anbieter, Kosten auf einen Blick.

Dieser Workflow deckt rund 80% aller Kostenüberraschungen vor Monatsende auf.

Vier Regeln für vorhersehbare Ausgaben

Standardmäßig V4-Flash nutzen. Nur auf V4-Pro wechseln, wenn ein echter Qualitätsvorteil nachgewiesen ist.
Non-Think als Default. Für schwierige Aufgaben auf Think High wechseln. Think Max nur bei kritischen Anforderungen aktivieren.
max_tokens restriktiv setzen. Die 384K-Grenze ist ein Sicherheitsnetz, kein Zielwert. In der Praxis reichen oft 2K.
Telemetry bei jeder Anfrage. Protokolliere prompt_tokens, completion_tokens und reasoning_tokens. Bei Reasoning-Spitzen Alarm auslösen – sie zeigen versehentliche Think-Max-Nutzung.

FAQ

Gibt es einen kostenlosen Tarif?

Es gibt keinen generell kostenlosen API-Tarif, gelegentlich bekommen neue Konten Testguthaben. Für kostenlose Möglichkeiten außerhalb der API siehe Wie man DeepSeek V4 kostenlos nutzt.

Wie funktioniert das Cache-Hit-Pricing?

Präfixe ≥1.024 Tokens werden bei Wiederholung automatisch zum Cache-Hit-Tarif abgerechnet (bytegenau, Account-gebunden). Die erste Anfrage zählt als Miss, danach greift der Rabatt.

Kosten Denkmodi mehr?

Der Preis pro Token bleibt gleich. Reasoning-Modi erzeugen aber mehr Output-Tokens. Tracke reasoning_tokens im usage-Objekt zur Kostenüberwachung.

Sind die Preise stabil?

DeepSeek ändert die Preise regelmäßig. V3.2 galt fast ganz 2025, V4 hat kein Enddatum. Aktuelle Preise immer unter Preisseite prüfen.

Gibt es gleiche Output-Tarife für V4-Pro und V4-Flash?

Nein. V4-Pro-Output kostet $3,48 / M, V4-Flash $0,28 / M – das 12,4-fache. Standardmäßig immer V4-Flash wählen.

Beeinflusst das Anthropic-Format die Preise?

Nein. Endpunkt https://api.deepseek.com/anthropic nutzt die gleichen Preise wie das OpenAI-Format. Das Request-Format hat keinen Einfluss auf die Abrechnung.

DEV Community