DeepSeek hat den temporären 75%-Rabatt für DeepSeek-V4-Pro dauerhaft gemacht. Am 22. Mai wurde bekannt gegeben, dass das Angebot nicht wie geplant am 31. Mai 2026 um 15:59 UTC endet. Der Aktionspreis ist jetzt der reguläre Listenpreis: 0,435 $ pro Million Input-Token, 0,87 $ pro Million Output-Token und 0,003625 $ pro Million Cache-Hit-Token. Für API-Entwickler bedeutet das: Kostenmodelle, Routing-Strategien und Prompt-Caching sollten diese Woche neu bewertet werden.
TL;DR
- Die DeepSeek-V4-Pro API kostet dauerhaft nur noch ein Viertel des ursprünglichen Listenpreises:
- Input: 0,435 $/MTok
- Output: 0,87 $/MTok
- Cache-Hit: 0,003625 $/MTok
- Der 75%-Rabatt läuft nicht aus. Er ist jetzt der reguläre Preis.
- V4-Pro ist beim Output etwa 34-mal günstiger als GPT-5.5, liegt aber bei vielen Coding- und Reasoning-Benchmarks innerhalb von etwa 95% der GPT-5.5-Leistung.
- Der Cache-Hit-Preis ist der wichtigste operative Hebel: Lange, stabile System-Prompts werden fast kostenlos.
- Wenn Sie LLM-Features zuletzt gegen GPT-5.5 oder Claude Opus 4.7 kalkuliert haben, ist Ihre Kostenrechnung jetzt wahrscheinlich veraltet.
Warum das für Entwickler relevant ist
LLM-Preise sinken normalerweise schrittweise. DeepSeek macht aus einer aggressiven Promotion einen dauerhaften Listenpreis. Das ist kein kleiner Rabatt, sondern ein Signal: Frontier-nahe Modelle werden deutlich günstiger, besonders für produktive API-Workloads.
Wenn Ihr Produkt LLMs im Hot Path nutzt, zum Beispiel für:
- Autocomplete
- Chat mit Retrieval
- Code-Review
- Agenten-Loops
- Tool-Calling
- JSON-Generierung
dann wirkt sich der Output-Preis direkt auf Ihre Marge aus.
Beispiel:
- 50 Millionen Output-Token pro Tag
- Alter Preis: 3,48 $/MTok
- Neuer Preis: 0,87 $/MTok
Das reduziert die monatlichen Output-Kosten grob von 5.200 $ auf 1.300 $.
Wenn Sie DeepSeek testen oder migrieren möchten, können Sie mit Apidog API-Aufrufe generieren, testen und überwachen, inklusive Streaming, Tool-Aufrufen und JSON-Schema-Validierung.
Im Rest des Artikels geht es um die neue Preisliste, den Vergleich mit GPT-5.5 und Claude Opus 4.7, die Cache-Hit-Kalkulation und ein praktisches Migrationsmodell.
Was sich geändert hat
DeepSeeks offizielle Preisbekanntmachung ist kurz, aber technisch relevant. Drei Punkte sind wichtig.
1. Der 75%-Rabatt ist dauerhaft
Der Rabatt sollte ursprünglich bis zum 31. Mai 2026, 15:59 UTC laufen. Danach hätte der Preis auf den alten Listenpreis zurückspringen sollen.
Das passiert nicht. Der Aktionspreis ist jetzt der reguläre Preis.
2. Die Preissenkung gilt für V4-Pro
DeepSeek-V4-Flash war bereits sehr günstig. Die relevante Änderung betrifft V4-Pro, also das leistungsfähigere Modell.
Zur Einordnung von Flash vs. Pro siehe: Was ist DeepSeek V4.
3. Cache-Hits wurden zusätzlich stark reduziert
Der Cache-Hit-Preis wurde bereits ab dem 26. April 2026, 12:15 UTC auf ein Zehntel des Startpreises gesenkt. Zusammen mit der dauerhaften 75%-Reduktion ergibt sich:
Cache-Hit: 0,003625 $ pro 1 Million Token
Das ist der wichtigste Punkt für Agenten, RAG-Systeme und Long-Context-Workloads.
Neue dauerhafte DeepSeek-V4-Pro Preise
Preise pro 1 Million Token in USD:
| Token-Typ | Alter Listenpreis | Neuer dauerhafter Preis | Reduzierung |
|---|---|---|---|
| Input, Cache-Miss | 1,74 $ | 0,435 $ | 75% |
| Input, Cache-Hit | 0,0145 $ | 0,003625 $ | 75% |
| Output | 3,48 $ | 0,87 $ | 75% |
Wichtig für die Praxis:
- Output ist der größte Kostenhebel, besonders bei Agenten, Code-Generierung und Reasoning.
- Cache-Hits sind extrem günstig. Der Unterschied zwischen Input-Miss und Input-Hit liegt bei etwa 120:1.
- Die Preise gelten für die API. DeepSeeks Web-Chat bleibt davon getrennt.
Für mehr Kontext zu den V4-Preiskategorien: DeepSeek V4 API-Preisgestaltung.
Vergleich: V4-Pro vs. GPT-5.5, Claude Opus 4.7 und Gemini 3.5 Flash
| Modell | Input ($/MTok) | Output ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro, neu | 0,435 $ | 0,87 $ | 55,4% |
| GPT-5.5 | 5,00 $ | 30,00 $ | 58,6% |
| Claude Opus 4.7 | 3,00 $ | 15,00 $ | ~62% |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | ~48% |
| DeepSeek-V4-Flash | 0,14 $ | 0,28 $ | ~42% |
Beim Output ist DeepSeek-V4-Pro laut The Decoder etwa 34-mal günstiger als GPT-5.5 und etwa 17-mal günstiger als Claude Opus 4.7.
Bei öffentlichen Coding- und Reasoning-Benchmarks liegt V4-Pro laut DataCamp-Vergleich meist innerhalb von 3 bis 7 Prozentpunkten von GPT-5.5.
Praktische Konsequenz:
- Für viele Standard-Workloads ist V4-Pro ein direkter Kostenhebel.
- Für besonders schwierige Fälle kann V4-Pro als günstiges Erstmodell dienen, während GPT-5.5 oder Claude Opus 4.7 nur bei Eskalationen genutzt werden.
- Für Agenten ist Modell-Routing oft sinnvoller als eine vollständige Migration.
Weitere Vergleiche:
- DeepSeek V4 vs. Claude Opus 4.5 für Coding
- GLM-5 vs. DeepSeek V3 vs. GPT-5: Geschwindigkeit, Kosten und praktischer Entwicklervergleich
Der unterschätzte Teil: Cache-Hits
Viele Diskussionen fokussieren sich auf den Output-Preis von 0,87 $. Für produktive Systeme ist aber der Cache-Hit-Preis fast genauso wichtig.
DeepSeeks Prompt-Cache greift, wenn das Präfix einer Anfrage byte-identisch mit einer kürzlich vorherigen Anfrage ist. Das Zeitfenster liegt bei etwa 30 Minuten.
Typische cachebare Präfixe:
- System-Prompt
- Tool-Definitionen
- JSON-Schemas
- Few-Shot-Beispiele
- feste Agenten-Instruktionen
Diese Blöcke ändern sich oft nicht zwischen Requests. Genau dort entstehen die Einsparungen.
Beispielrechnung: Chat-Agent mit System-Prompt
Angenommen:
- 6.000 Token System-Prompt
- 100.000 Chat-Turns pro Tag
- 200 Token durchschnittliche User-Nachricht
- 800 Token durchschnittliche Antwort
Ohne Cache-Hits
100.000 × 6.200 Input-Token × 0,435 $ / 1.000.000
= 269,70 $ pro Tag nur für Input
Mit 90% Cache-Hits auf den System-Prompt
User-Input:
100.000 × 200 × 0,435 $ / 1.000.000
System-Prompt:
100.000 × 6.000 × ((0,9 × 0,003625 $) + (0,1 × 0,435 $)) / 1.000.000
Ergebnis: etwa 32 $ pro Tag für Input.
Das ist eine Input-Kostenreduktion von rund 88%.
Mehr zu Prefix-Caching: Deep Dive zum Prompt-Caching.
So optimieren Sie Ihre Prompts für Cache-Hits
1. System-Prompt stabil halten
Schlecht:
Du bist ein Support-Agent.
Aktuelle Uhrzeit: 2026-05-22T10:15:00Z
User-ID: 12345
...
Besser:
Du bist ein Support-Agent.
Nutze die bereitgestellten Tools.
Antworte immer im JSON-Format gemäß Schema.
...
Dynamische Werte gehören in die User-Nachricht oder in separate Tool-Kontexte, nicht in das feste Präfix.
2. Tool-Schemas nicht pro Request neu sortieren
Wenn Sie Tool-Definitionen dynamisch generieren, achten Sie auf stabile Reihenfolge.
Schlecht:
{
"tools": [
{ "name": "search_docs" },
{ "name": "create_ticket" },
{ "name": "lookup_user" }
]
}
und im nächsten Request:
{
"tools": [
{ "name": "lookup_user" },
{ "name": "search_docs" },
{ "name": "create_ticket" }
]
}
Besser: Tools deterministisch sortieren, zum Beispiel alphabetisch nach name.
3. Retrieval-Kontext erst nach dem stabilen Präfix anhängen
Strukturieren Sie Requests so:
[System-Prompt]
[Tool-Schemas]
[Format-Instruktionen]
[User-Frage]
[Retrieval-Kontext]
Nicht so:
[System-Prompt]
[Retrieval-Kontext]
[Tool-Schemas]
[User-Frage]
Der cachebare Block sollte möglichst lang und möglichst stabil am Anfang stehen.
4. Warm-up-Requests nutzen
Wenn ein Agent startet, können Sie eine Anfrage mit dem vollständigen festen Präfix senden, damit der Cache gefüllt wird, bevor echter Traffic kommt.
Beispiel-Pseudocode:
await client.chat.completions.create({
model: "deepseek-v4-pro",
messages: [
{
role: "system",
content: STABLE_SYSTEM_PROMPT_WITH_TOOLS
},
{
role: "user",
content: "Warm-up. Antworte kurz mit OK."
}
]
});
Was Sie diese Woche konkret tun sollten
Die Migration muss nicht vollständig sein. Besser ist ein schrittweiser Test mit echten Produktions-Traces.
Schritt 1: Token-Verhältnis messen
Berechnen Sie für Ihre wichtigsten Routen:
Output-Token / Gesamt-Token
Input-Token / Gesamt-Token
Cachebarer Input / Gesamt-Input
Wenn Ihr System outputlastig ist, ist V4-Pro besonders attraktiv.
Typische outputlastige Workloads:
- Code-Generatoren
- Agenten mit Reasoning
- Content-Erstellung
- Summarization mit langen Antworten
Typische inputlastige Workloads:
- RAG über lange Dokumente
- juristische Analyse
- Log-Analyse
- große JSON- oder CSV-Kontexte
Schritt 2: 100 echte Requests evaluieren
Nehmen Sie 100 Produktions-Traces und führen Sie diese gegen V4-Pro und Ihr aktuelles Modell aus.
Vergleichen Sie:
- fachliche Korrektheit
- JSON-Validität
- Tool-Call-Format
- Latenz
- Token-Kosten
- Fehlerrate
Minimaler Testaufbau:
const models = ["current-model", "deepseek-v4-pro"];
for (const trace of traces) {
for (const model of models) {
const result = await runCompletion({
model,
messages: trace.messages,
tools: trace.tools
});
await saveEvalResult({
traceId: trace.id,
model,
output: result.output,
usage: result.usage
});
}
}
Schritt 3: Routing statt Big-Bang-Migration
Leiten Sie einfache oder mittlere Requests zu V4-Pro und behalten Sie Ihr Premium-Modell für schwierige Fälle.
Beispiel:
function selectModel(request) {
if (request.requiresLongTermPlanning) {
return "premium-model";
}
if (request.hasHighRiskToolCall) {
return "premium-model";
}
if (request.userTier === "enterprise" && request.taskCriticality === "high") {
return "premium-model";
}
return "deepseek-v4-pro";
}
Damit erzielen viele Teams den Großteil der Einsparungen, ohne die gesamte Qualität zu riskieren.
Schritt 4: Cache-Präfixe fixieren
Prüfen Sie Ihre System-Prompts auf dynamische Werte:
- Zeitstempel
- User-IDs
- Session-IDs
- zufällige Request-IDs
- dynamisch sortierte Tool-Listen
- variierende Few-Shot-Beispiele
Verschieben Sie diese Werte aus dem System-Prompt heraus.
Schritt 5: Regressionstests einrichten
Mit Apidog können Sie bestehende API-Sammlungen importieren, Requests gegen DeepSeek ausführen und Antworten validieren.
Praktischer Ablauf:
- OpenAI-kompatible Collection importieren.
- Base URL auf
https://api.deepseek.comändern. - Auth-Header setzen.
- Testfälle mit bestehenden Prompts ausführen.
- JSON-Schema-Validierung aktivieren.
- Ergebnisse gegen Golden Responses vergleichen.
Download: Apidog herunterladen
Für den Endpoint-Aufbau: Wie man die DeepSeek V4 API verwendet.
Beispiel: OpenAI-kompatibler DeepSeek-Request
Wenn Ihre Infrastruktur bereits OpenAI-kompatible Chat-Completions nutzt, ist der Wechsel häufig eine Base-URL-Änderung plus Modellname.
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com"
});
const completion = await client.chat.completions.create({
model: "deepseek-v4-pro",
messages: [
{
role: "system",
content: "Du bist ein technischer Assistent. Antworte präzise und im JSON-Format."
},
{
role: "user",
content: "Erstelle eine Checkliste für einen API-Smoke-Test."
}
],
response_format: {
type: "json_object"
}
});
console.log(completion.choices[0].message.content);
console.log(completion.usage);
Für Tests sollten Sie immer usage speichern, damit Sie echte Kosten pro Route berechnen können.
Kosten pro Route berechnen
Eine einfache Formel:
Kosten =
(input_cache_miss_tokens × 0,435 / 1.000.000)
+ (input_cache_hit_tokens × 0,003625 / 1.000.000)
+ (output_tokens × 0,87 / 1.000.000)
Beispiel in JavaScript:
function estimateDeepSeekCost({
inputCacheMissTokens,
inputCacheHitTokens,
outputTokens
}) {
return (
inputCacheMissTokens * 0.435 / 1_000_000 +
inputCacheHitTokens * 0.003625 / 1_000_000 +
outputTokens * 0.87 / 1_000_000
);
}
const cost = estimateDeepSeekCost({
inputCacheMissTokens: 20_000_000,
inputCacheHitTokens: 80_000_000,
outputTokens: 50_000_000
});
console.log(`Geschätzte Kosten: $${cost.toFixed(2)}`);
Vergleich mit anderen Preissenkungen 2026
DeepSeek ist nicht der einzige Anbieter mit sinkenden Preisen. Der Markt bewegt sich klar in Richtung Margenkompression.
- OpenAI O3 wurde Anfang des Jahres um 80% günstiger. Siehe: O3-Preisanalyse
- Kimi K2 hat Preise aggressiv angepasst. Details: Kimi K2 API-Preisgestaltung
- Anthropic Claude hielt Opus stabil, bietet aber günstigere Haiku- und Sonnet-Tiers. Überblick: Claude API-Kostenanalyse
Der Unterschied: DeepSeek senkt nicht nur Budget-Modelle, sondern ein Modell im Frontier-nahen Leistungsbereich.
Fazit
DeepSeek hat nicht nur einen Rabatt verlängert. Die neue V4-Pro-Preisstruktur verändert die Kalkulation für produktive LLM-Systeme.
Wenn Sie diese Woche handeln wollen:
- Messen Sie Ihre drei wichtigsten LLM-Routen.
- Testen Sie 100 echte Produktions-Traces gegen V4-Pro.
- Routen Sie einfache und mittlere Fälle zu V4-Pro.
- Stabilisieren Sie System-Prompts für Cache-Hits.
- Bauen Sie Regressionstests mit Apidog, damit zukünftige Modell- oder Preiswechsel schneller bewertet werden können.
Das Promo-Flag ist weg. Der Rabatt bleibt.
Top comments (0)