Emre Demir

Posted on May 25 • Originally published at apidog.com

DeepSeek V4-Pro: Dauerhafte Preissenkung & Vorteile für Entwickler (2026)

DeepSeek hat den temporären 75%-Rabatt für DeepSeek-V4-Pro dauerhaft gemacht. Am 22. Mai wurde bekannt gegeben, dass das Angebot nicht wie geplant am 31. Mai 2026 um 15:59 UTC endet. Der Aktionspreis ist jetzt der reguläre Listenpreis: 0,435 $ pro Million Input-Token, 0,87 $ pro Million Output-Token und 0,003625 $ pro Million Cache-Hit-Token. Für API-Entwickler bedeutet das: Kostenmodelle, Routing-Strategien und Prompt-Caching sollten diese Woche neu bewertet werden.

Teste Apidog noch heute

TL;DR

Die DeepSeek-V4-Pro API kostet dauerhaft nur noch ein Viertel des ursprünglichen Listenpreises:
- Input: 0,435 $/MTok
- Output: 0,87 $/MTok
- Cache-Hit: 0,003625 $/MTok
Der 75%-Rabatt läuft nicht aus. Er ist jetzt der reguläre Preis.
V4-Pro ist beim Output etwa 34-mal günstiger als GPT-5.5, liegt aber bei vielen Coding- und Reasoning-Benchmarks innerhalb von etwa 95% der GPT-5.5-Leistung.
Der Cache-Hit-Preis ist der wichtigste operative Hebel: Lange, stabile System-Prompts werden fast kostenlos.
Wenn Sie LLM-Features zuletzt gegen GPT-5.5 oder Claude Opus 4.7 kalkuliert haben, ist Ihre Kostenrechnung jetzt wahrscheinlich veraltet.

Warum das für Entwickler relevant ist

LLM-Preise sinken normalerweise schrittweise. DeepSeek macht aus einer aggressiven Promotion einen dauerhaften Listenpreis. Das ist kein kleiner Rabatt, sondern ein Signal: Frontier-nahe Modelle werden deutlich günstiger, besonders für produktive API-Workloads.

Wenn Ihr Produkt LLMs im Hot Path nutzt, zum Beispiel für:

Autocomplete
Chat mit Retrieval
Code-Review
Agenten-Loops
Tool-Calling
JSON-Generierung

dann wirkt sich der Output-Preis direkt auf Ihre Marge aus.

Beispiel:

50 Millionen Output-Token pro Tag
Alter Preis: 3,48 $/MTok
Neuer Preis: 0,87 $/MTok

Das reduziert die monatlichen Output-Kosten grob von 5.200 $ auf 1.300 $.

Wenn Sie DeepSeek testen oder migrieren möchten, können Sie mit Apidog API-Aufrufe generieren, testen und überwachen, inklusive Streaming, Tool-Aufrufen und JSON-Schema-Validierung.

Im Rest des Artikels geht es um die neue Preisliste, den Vergleich mit GPT-5.5 und Claude Opus 4.7, die Cache-Hit-Kalkulation und ein praktisches Migrationsmodell.

Was sich geändert hat

DeepSeeks offizielle Preisbekanntmachung ist kurz, aber technisch relevant. Drei Punkte sind wichtig.

1. Der 75%-Rabatt ist dauerhaft

Der Rabatt sollte ursprünglich bis zum 31. Mai 2026, 15:59 UTC laufen. Danach hätte der Preis auf den alten Listenpreis zurückspringen sollen.

Das passiert nicht. Der Aktionspreis ist jetzt der reguläre Preis.

2. Die Preissenkung gilt für V4-Pro

DeepSeek-V4-Flash war bereits sehr günstig. Die relevante Änderung betrifft V4-Pro, also das leistungsfähigere Modell.

Zur Einordnung von Flash vs. Pro siehe: Was ist DeepSeek V4.

3. Cache-Hits wurden zusätzlich stark reduziert

Der Cache-Hit-Preis wurde bereits ab dem 26. April 2026, 12:15 UTC auf ein Zehntel des Startpreises gesenkt. Zusammen mit der dauerhaften 75%-Reduktion ergibt sich:

Cache-Hit: 0,003625 $ pro 1 Million Token

Das ist der wichtigste Punkt für Agenten, RAG-Systeme und Long-Context-Workloads.

Neue dauerhafte DeepSeek-V4-Pro Preise

Preise pro 1 Million Token in USD:

Token-Typ	Alter Listenpreis	Neuer dauerhafter Preis	Reduzierung
Input, Cache-Miss	1,74 $	0,435 $	75%
Input, Cache-Hit	0,0145 $	0,003625 $	75%
Output	3,48 $	0,87 $	75%

Wichtig für die Praxis:

Output ist der größte Kostenhebel, besonders bei Agenten, Code-Generierung und Reasoning.
Cache-Hits sind extrem günstig. Der Unterschied zwischen Input-Miss und Input-Hit liegt bei etwa 120:1.
Die Preise gelten für die API. DeepSeeks Web-Chat bleibt davon getrennt.

Für mehr Kontext zu den V4-Preiskategorien: DeepSeek V4 API-Preisgestaltung.

Vergleich: V4-Pro vs. GPT-5.5, Claude Opus 4.7 und Gemini 3.5 Flash

Modell	Input ($/MTok)	Output ($/MTok)	SWE-bench Pro
DeepSeek-V4-Pro, neu	0,435 $	0,87 $	55,4%
GPT-5.5	5,00 $	30,00 $	58,6%
Claude Opus 4.7	3,00 $	15,00 $	~62%
Gemini 3.5 Flash	~1,50 $	~9,00 $	~48%
DeepSeek-V4-Flash	0,14 $	0,28 $	~42%

Beim Output ist DeepSeek-V4-Pro laut The Decoder etwa 34-mal günstiger als GPT-5.5 und etwa 17-mal günstiger als Claude Opus 4.7.

Bei öffentlichen Coding- und Reasoning-Benchmarks liegt V4-Pro laut DataCamp-Vergleich meist innerhalb von 3 bis 7 Prozentpunkten von GPT-5.5.

Praktische Konsequenz:

Für viele Standard-Workloads ist V4-Pro ein direkter Kostenhebel.
Für besonders schwierige Fälle kann V4-Pro als günstiges Erstmodell dienen, während GPT-5.5 oder Claude Opus 4.7 nur bei Eskalationen genutzt werden.
Für Agenten ist Modell-Routing oft sinnvoller als eine vollständige Migration.

Weitere Vergleiche:

Der unterschätzte Teil: Cache-Hits

Viele Diskussionen fokussieren sich auf den Output-Preis von 0,87 $. Für produktive Systeme ist aber der Cache-Hit-Preis fast genauso wichtig.

DeepSeeks Prompt-Cache greift, wenn das Präfix einer Anfrage byte-identisch mit einer kürzlich vorherigen Anfrage ist. Das Zeitfenster liegt bei etwa 30 Minuten.

Typische cachebare Präfixe:

System-Prompt
Tool-Definitionen
JSON-Schemas
Few-Shot-Beispiele
feste Agenten-Instruktionen

Diese Blöcke ändern sich oft nicht zwischen Requests. Genau dort entstehen die Einsparungen.

Beispielrechnung: Chat-Agent mit System-Prompt

Angenommen:

6.000 Token System-Prompt
100.000 Chat-Turns pro Tag
200 Token durchschnittliche User-Nachricht
800 Token durchschnittliche Antwort

Ohne Cache-Hits

100.000 × 6.200 Input-Token × 0,435 $ / 1.000.000
= 269,70 $ pro Tag nur für Input

Mit 90% Cache-Hits auf den System-Prompt

User-Input:
100.000 × 200 × 0,435 $ / 1.000.000

System-Prompt:
100.000 × 6.000 × ((0,9 × 0,003625 $) + (0,1 × 0,435 $)) / 1.000.000

Ergebnis: etwa 32 $ pro Tag für Input.

Das ist eine Input-Kostenreduktion von rund 88%.

Mehr zu Prefix-Caching: Deep Dive zum Prompt-Caching.

So optimieren Sie Ihre Prompts für Cache-Hits

1. System-Prompt stabil halten

Schlecht:

Du bist ein Support-Agent.
Aktuelle Uhrzeit: 2026-05-22T10:15:00Z
User-ID: 12345
...

Besser:

Du bist ein Support-Agent.
Nutze die bereitgestellten Tools.
Antworte immer im JSON-Format gemäß Schema.
...

Dynamische Werte gehören in die User-Nachricht oder in separate Tool-Kontexte, nicht in das feste Präfix.

2. Tool-Schemas nicht pro Request neu sortieren

Wenn Sie Tool-Definitionen dynamisch generieren, achten Sie auf stabile Reihenfolge.

Schlecht:

{
  "tools": [
    { "name": "search_docs" },
    { "name": "create_ticket" },
    { "name": "lookup_user" }
  ]
}

und im nächsten Request:

{
  "tools": [
    { "name": "lookup_user" },
    { "name": "search_docs" },
    { "name": "create_ticket" }
  ]
}

Besser: Tools deterministisch sortieren, zum Beispiel alphabetisch nach name.

3. Retrieval-Kontext erst nach dem stabilen Präfix anhängen

Strukturieren Sie Requests so:

[System-Prompt]
[Tool-Schemas]
[Format-Instruktionen]
[User-Frage]
[Retrieval-Kontext]

Nicht so:

[System-Prompt]
[Retrieval-Kontext]
[Tool-Schemas]
[User-Frage]

Der cachebare Block sollte möglichst lang und möglichst stabil am Anfang stehen.

4. Warm-up-Requests nutzen

Wenn ein Agent startet, können Sie eine Anfrage mit dem vollständigen festen Präfix senden, damit der Cache gefüllt wird, bevor echter Traffic kommt.

Beispiel-Pseudocode:

await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    {
      role: "system",
      content: STABLE_SYSTEM_PROMPT_WITH_TOOLS
    },
    {
      role: "user",
      content: "Warm-up. Antworte kurz mit OK."
    }
  ]
});

Was Sie diese Woche konkret tun sollten

Die Migration muss nicht vollständig sein. Besser ist ein schrittweiser Test mit echten Produktions-Traces.

Schritt 1: Token-Verhältnis messen

Berechnen Sie für Ihre wichtigsten Routen:

Output-Token / Gesamt-Token
Input-Token / Gesamt-Token
Cachebarer Input / Gesamt-Input

Wenn Ihr System outputlastig ist, ist V4-Pro besonders attraktiv.

Typische outputlastige Workloads:

Code-Generatoren
Agenten mit Reasoning
Content-Erstellung
Summarization mit langen Antworten

Typische inputlastige Workloads:

RAG über lange Dokumente
juristische Analyse
Log-Analyse
große JSON- oder CSV-Kontexte

Schritt 2: 100 echte Requests evaluieren

Nehmen Sie 100 Produktions-Traces und führen Sie diese gegen V4-Pro und Ihr aktuelles Modell aus.

Vergleichen Sie:

fachliche Korrektheit
JSON-Validität
Tool-Call-Format
Latenz
Token-Kosten
Fehlerrate

Minimaler Testaufbau:

const models = ["current-model", "deepseek-v4-pro"];

for (const trace of traces) {
  for (const model of models) {
    const result = await runCompletion({
      model,
      messages: trace.messages,
      tools: trace.tools
    });

    await saveEvalResult({
      traceId: trace.id,
      model,
      output: result.output,
      usage: result.usage
    });
  }
}

Schritt 3: Routing statt Big-Bang-Migration

Leiten Sie einfache oder mittlere Requests zu V4-Pro und behalten Sie Ihr Premium-Modell für schwierige Fälle.

Beispiel:

function selectModel(request) {
  if (request.requiresLongTermPlanning) {
    return "premium-model";
  }

  if (request.hasHighRiskToolCall) {
    return "premium-model";
  }

  if (request.userTier === "enterprise" && request.taskCriticality === "high") {
    return "premium-model";
  }

  return "deepseek-v4-pro";
}

Damit erzielen viele Teams den Großteil der Einsparungen, ohne die gesamte Qualität zu riskieren.

Schritt 4: Cache-Präfixe fixieren

Prüfen Sie Ihre System-Prompts auf dynamische Werte:

Zeitstempel
User-IDs
Session-IDs
zufällige Request-IDs
dynamisch sortierte Tool-Listen
variierende Few-Shot-Beispiele

Verschieben Sie diese Werte aus dem System-Prompt heraus.

Schritt 5: Regressionstests einrichten

Mit Apidog können Sie bestehende API-Sammlungen importieren, Requests gegen DeepSeek ausführen und Antworten validieren.

Praktischer Ablauf:

OpenAI-kompatible Collection importieren.
Base URL auf https://api.deepseek.com ändern.
Auth-Header setzen.
Testfälle mit bestehenden Prompts ausführen.
JSON-Schema-Validierung aktivieren.
Ergebnisse gegen Golden Responses vergleichen.

Download: Apidog herunterladen

Für den Endpoint-Aufbau: Wie man die DeepSeek V4 API verwendet.

Beispiel: OpenAI-kompatibler DeepSeek-Request

Wenn Ihre Infrastruktur bereits OpenAI-kompatible Chat-Completions nutzt, ist der Wechsel häufig eine Base-URL-Änderung plus Modellname.

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com"
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    {
      role: "system",
      content: "Du bist ein technischer Assistent. Antworte präzise und im JSON-Format."
    },
    {
      role: "user",
      content: "Erstelle eine Checkliste für einen API-Smoke-Test."
    }
  ],
  response_format: {
    type: "json_object"
  }
});

console.log(completion.choices[0].message.content);
console.log(completion.usage);

Für Tests sollten Sie immer usage speichern, damit Sie echte Kosten pro Route berechnen können.

Kosten pro Route berechnen

Eine einfache Formel:

Kosten =
(input_cache_miss_tokens × 0,435 / 1.000.000)
+ (input_cache_hit_tokens × 0,003625 / 1.000.000)
+ (output_tokens × 0,87 / 1.000.000)

Beispiel in JavaScript:

function estimateDeepSeekCost({
  inputCacheMissTokens,
  inputCacheHitTokens,
  outputTokens
}) {
  return (
    inputCacheMissTokens * 0.435 / 1_000_000 +
    inputCacheHitTokens * 0.003625 / 1_000_000 +
    outputTokens * 0.87 / 1_000_000
  );
}

const cost = estimateDeepSeekCost({
  inputCacheMissTokens: 20_000_000,
  inputCacheHitTokens: 80_000_000,
  outputTokens: 50_000_000
});

console.log(`Geschätzte Kosten: $${cost.toFixed(2)}`);

Vergleich mit anderen Preissenkungen 2026

DeepSeek ist nicht der einzige Anbieter mit sinkenden Preisen. Der Markt bewegt sich klar in Richtung Margenkompression.

OpenAI O3 wurde Anfang des Jahres um 80% günstiger. Siehe: O3-Preisanalyse
Kimi K2 hat Preise aggressiv angepasst. Details: Kimi K2 API-Preisgestaltung
Anthropic Claude hielt Opus stabil, bietet aber günstigere Haiku- und Sonnet-Tiers. Überblick: Claude API-Kostenanalyse

Der Unterschied: DeepSeek senkt nicht nur Budget-Modelle, sondern ein Modell im Frontier-nahen Leistungsbereich.

Fazit

DeepSeek hat nicht nur einen Rabatt verlängert. Die neue V4-Pro-Preisstruktur verändert die Kalkulation für produktive LLM-Systeme.

Wenn Sie diese Woche handeln wollen:

Messen Sie Ihre drei wichtigsten LLM-Routen.
Testen Sie 100 echte Produktions-Traces gegen V4-Pro.
Routen Sie einfache und mittlere Fälle zu V4-Pro.
Stabilisieren Sie System-Prompts für Cache-Hits.
Bauen Sie Regressionstests mit Apidog, damit zukünftige Modell- oder Preiswechsel schneller bewertet werden können.

Das Promo-Flag ist weg. Der Rabatt bleibt.

DEV Community