DeepSeek veröffentlichte die V4-Preise am selben Tag, an dem die Modelle erschienen (23. April 2026). Die Tarife setzen neue Maßstäbe: V4-Flash kostet $0,14 pro Million Eingabetokens und $0,28 pro Million Ausgabetokens, V4-Pro liegt bei $1,74 pro Eingabetokens und $3,48 pro Ausgabetokens. Beide Modelle unterstützen ein 1M-Token-Kontextfenster und bis zu 384K Ausgabetokens. Ein aggressiver Cache-Hit-Rabatt reduziert die Eingabekosten bei wiederholten Prompts um 80% bis 90%.
In diesem Leitfaden findest du die vollständige Preisliste, eine technische Erklärung zum Kontext-Caching, einen direkten Kostenvergleich mit GPT-5.5 und Claude Opus sowie vier konkrete Maßnahmen, um die Ausgaben in Apidog effizient im Griff zu behalten.
Produktüberblick: Was ist DeepSeek V4.
Entwickleranleitung: Wie man die DeepSeek V4 API verwendet.
Kostenlos testen: Wie man DeepSeek V4 kostenlos nutzt.
TL;DR
- V4-Flash: $0,14 / M Eingabe (Cache-Fehlzugriff), $0,028 / M Eingabe (Cache-Treffer), $0,28 / M Ausgabe.
- V4-Pro: $1,74 / M Eingabe (Cache-Fehlzugriff), $0,145 / M Eingabe (Cache-Treffer), $3,48 / M Ausgabe.
- Kontextfenster: 1M Tokens Eingabe, 384K Tokens Ausgabe.
- Cache-Hit-Rabatt: ca. 80% Rabatt auf Flash, 92% Rabatt auf Pro bei wiederholten Präfixen.
-
deepseek-chatunddeepseek-reasonerwerden zum 24. Juli 2026 eingestellt; Abrechnung läuft über V4-Flash. - V4-Pro ist bei Cache-Fehlzugriffen etwa 2,9x günstiger als GPT-5.5 bei Eingabe und ~8,6x günstiger bei Ausgabe.
Die vollständige Preisliste
| Modell | Eingabe (Cache-Fehlzugriff) | Eingabe (Cache-Treffer) | Ausgabe | Kontext |
|---|---|---|---|---|
deepseek-v4-flash |
$0,14 / M | $0,028 / M | $0,28 / M | 1M / 384K |
deepseek-v4-pro |
$1,74 / M | $0,145 / M | $3,48 / M | 1M / 384K |
deepseek-chat (veraltet 24.07.2026) |
entspricht V4-Flash Non-Thinking | — | — | — |
deepseek-reasoner (veraltet 24.07.2026) |
entspricht V4-Flash Thinking | — | — | — |
Wichtige technische Details:
- Preise sind identisch für Denk- und Nicht-Denkmodus. Die Modell-ID steuert den Tarif; der Reasoning-Modus beeinflusst nur die Token-Menge.
- Cache-Hit-Preisgestaltung ist automatisch: Sobald ein Präfix (mind. 1.024 Tokens, bytegenau identisch) erneut verwendet wird, greift der Rabatt – keine Konfiguration nötig.
- Die alten IDs (
deepseek-chatunddeepseek-reasoner) werden bereits als V4-Flash abgerechnet. Migration ist technisch nicht erforderlich, aber empfohlen.
Kontext-Caching: Technische Umsetzung
Caching ist der stärkste Kostenhebel bei DeepSeek V4. Alles, was in mehreren Anfragen identisch bleibt (System-Prompts, Tool-Schemata, RAG-Kontext), wird ab dem zweiten Aufruf zum Cache-Hit-Tarif berechnet.
Beispiel:
- Agent mit 20.000 Token System-Prompt (unverändert)
- 100 Benutzerfragen à 200 Tokens
Ohne Caching:
- Eingabe: 100 × 20.200 × $1,74 / M = $3,52
- Ausgabe: 100 × 500 × $3,48 / M = $0,17
- Gesamt: $3,69
Mit Caching (1 Miss, 99 Hits):
- Erster Aufruf: 20.200 × $1,74 / M = $0,035
- 99 Cache-Hits: 99 × 20.000 × $0,145 / M = $0,287
- 99 Benutzerfragen: 99 × 200 × $1,74 / M = $0,034
- Ausgabe: 100 × 500 × $3,48 / M = $0,174
- Gesamt: $0,53
=> Rund 7x günstiger bei gleicher Nutzung. Bei V4-Flash fällt das Einsparpotenzial noch größer aus.
Vergleich mit GPT-5.5 und Claude Opus
| Modell | Eingabe (Standard) | Eingabe (gecached) | Ausgabe | Kontext |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0,14 / M | $0,028 / M | $0,28 / M | 1M |
| DeepSeek V4-Pro | $1,74 / M | $0,145 / M | $3,48 / M | 1M |
| GPT-5.5 | $5 / M | $1,25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1,50 / M | $75 / M | 200K |
Interpretation für die Praxis:
- Ausgabetokens: V4-Pro ist ~8,6x günstiger als GPT-5.5 und ~21x günstiger als Claude Opus 4.6. Besonders relevant für agentenbasierte Workloads.
- Gecachte Eingabe: V4-Pro liegt ~10x günstiger als gecachtes GPT-5.5 und Claude – relevant bei langen, gleichbleibenden Prompts.
- Benchmarking: V4-Pro erreicht oder übertrifft GPT-5.5 bei LiveCodeBench und Codeforces zu einem Bruchteil der Kosten. Details: Benchmark-Tabelle.
Einschränkung: Claude bleibt stärker bei langen Kontextabfragen und Gemini 3.1 Pro bei MMLU-Pro. Bei "Needle-in-a-Haystack"-Abfragen kann Qualität wichtiger sein als Kostenvorteil.
Kostenmodellierung: Praxisbeispiele für Workloads
Vier typische Produktionsszenarien (jeweils V4-Pro, Cache-Miss-Baseline):
1. Agenten-Coding-Loop (50K Kontext, 2K Ausgabe, 20 Aufrufe/Aufgabe)
- Eingabe: 50.000 × 20 × $1,74 / M = $1,74
- Ausgabe: 2.000 × 20 × $3,48 / M = $0,14
- Kosten pro Aufgabe: ~$1,88
(GPT-5.5: ~$6,20 pro Aufgabe)
2. Langdokument-Fragen & Antworten (500K Kontext, 1K Ausgabe)
- Eingabe: 500.000 × $1,74 / M = $0,87
- Ausgabe: 1.000 × $3,48 / M = $0,003
- Kosten pro Aufruf: ~$0,87
(GPT-5.5: ~$2,53 pro Aufruf)
3. Hochvolumige Klassifizierung (2K Kontext, 200 Ausgabe, 10.000 Aufrufe)
Empfehlung: V4-Flash nutzen!
- Eingabe: 2.000 × 10.000 × $0,14 / M = $2,80
- Ausgabe: 200 × 10.000 × $0,28 / M = $0,56
- Laufkosten: ~$3,36
(GPT-5.5: ~$110 pro Lauf)
4. Chatbot mit wiederholtem Prompt (10K System-Prompt, 500 User-Tokens, 1K Ausgabe, 1.000 Sitzungen)
- Eingabe (erste Anfrage): 10.500 × $1,74 / M = $0,018
- Cache-Hit-Eingabe: 999 × 10.000 × $0,145 / M = $1,45
- Benutzerinteraktion: 999 × 500 × $1,74 / M = $0,87
- Ausgabe: 1.000 × 1.000 × $3,48 / M = $3,48
- Kosten pro Sitzungslauf: ~$5,82
(GPT-5.5 mit Caching: ~$26,35)
Versteckte Kosten: Die vier wichtigsten Stolpersteine
-
Token-Inflation im Denkmodus:
thinking_maxverbraucht 3-10x mehr Ausgabetokens alsnon-thinking. SchützeThink Maxdurch Feature-Flag. - Stilles Kontextwachstum: Agenten-Loops mit 1M-Kontext können schnell eskalieren. Kontext regelmäßig kürzen oder zusammenfassen.
- Wiederholungsstürme: Endlosschleifen mit Retry auf 500er-Fehler verdoppeln die Kosten in kurzer Zeit. Exponentielles Backoff und Retry-Limit pro Anfrage implementieren.
- Entwicklungsaufwand: Jeder Prompt-Test per Curl verursacht volle Kontextkosten. Mit Apidog kannst du Variablen substituieren und Prompts kostenfrei anpassen, ohne die gesamte Payload neu zu schicken.
Kosten-Tracking in Apidog
So behalten Entwickler die Kosten unter Kontrolle:
-
Apidog herunterladen und
DEEPSEEK_API_KEYals geheime Umgebungsvariable speichern. - Eine einzelne POST-Anfrage an
https://api.deepseek.com/v1/chat/completionsanlegen. - Im Response-Bereich die Felder
usage.prompt_tokens,usage.completion_tokensundusage.reasoning_tokensanpinnen. Die Kostenberechnung ist sofort sichtbar. -
modelundthinking_modeals Parameter definieren, um V4-Flash vs. V4-Pro und Non-Think vs. Think Max direkt im A/B-Vergleich zu testen. - Für GPT-5.5 eine identische Sammlung spiegeln (GPT-5.5 API-Leitfaden). Beide Anbieter, Kosten auf einen Blick.
Dieser Workflow deckt rund 80% aller Kostenüberraschungen vor Monatsende auf.
Vier Regeln für vorhersehbare Ausgaben
- Standardmäßig V4-Flash nutzen. Nur auf V4-Pro wechseln, wenn ein echter Qualitätsvorteil nachgewiesen ist.
- Non-Think als Default. Für schwierige Aufgaben auf Think High wechseln. Think Max nur bei kritischen Anforderungen aktivieren.
-
max_tokensrestriktiv setzen. Die 384K-Grenze ist ein Sicherheitsnetz, kein Zielwert. In der Praxis reichen oft 2K. -
Telemetry bei jeder Anfrage. Protokolliere
prompt_tokens,completion_tokensundreasoning_tokens. Bei Reasoning-Spitzen Alarm auslösen – sie zeigen versehentliche Think-Max-Nutzung.
FAQ
Gibt es einen kostenlosen Tarif?
Es gibt keinen generell kostenlosen API-Tarif, gelegentlich bekommen neue Konten Testguthaben. Für kostenlose Möglichkeiten außerhalb der API siehe Wie man DeepSeek V4 kostenlos nutzt.
Wie funktioniert das Cache-Hit-Pricing?
Präfixe ≥1.024 Tokens werden bei Wiederholung automatisch zum Cache-Hit-Tarif abgerechnet (bytegenau, Account-gebunden). Die erste Anfrage zählt als Miss, danach greift der Rabatt.
Kosten Denkmodi mehr?
Der Preis pro Token bleibt gleich. Reasoning-Modi erzeugen aber mehr Output-Tokens. Tracke reasoning_tokens im usage-Objekt zur Kostenüberwachung.
Sind die Preise stabil?
DeepSeek ändert die Preise regelmäßig. V3.2 galt fast ganz 2025, V4 hat kein Enddatum. Aktuelle Preise immer unter Preisseite prüfen.
Gibt es gleiche Output-Tarife für V4-Pro und V4-Flash?
Nein. V4-Pro-Output kostet $3,48 / M, V4-Flash $0,28 / M – das 12,4-fache. Standardmäßig immer V4-Flash wählen.
Beeinflusst das Anthropic-Format die Preise?
Nein. Endpunkt https://api.deepseek.com/anthropic nutzt die gleichen Preise wie das OpenAI-Format. Das Request-Format hat keinen Einfluss auf die Abrechnung.
Top comments (0)