DEV Community

Cover image for DeepSeek V4-Pro: Dauerhafte Preissenkung & Vorteile für Entwickler (2026)
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

DeepSeek V4-Pro: Dauerhafte Preissenkung & Vorteile für Entwickler (2026)

DeepSeek hat den temporären 75%-Rabatt für DeepSeek-V4-Pro dauerhaft gemacht. Am 22. Mai wurde bekannt gegeben, dass das Angebot nicht wie geplant am 31. Mai 2026 um 15:59 UTC endet. Der Aktionspreis ist jetzt der reguläre Listenpreis: 0,435 $ pro Million Input-Token, 0,87 $ pro Million Output-Token und 0,003625 $ pro Million Cache-Hit-Token. Für API-Entwickler bedeutet das: Kostenmodelle, Routing-Strategien und Prompt-Caching sollten diese Woche neu bewertet werden.

Teste Apidog noch heute

TL;DR

  • Die DeepSeek-V4-Pro API kostet dauerhaft nur noch ein Viertel des ursprünglichen Listenpreises:
    • Input: 0,435 $/MTok
    • Output: 0,87 $/MTok
    • Cache-Hit: 0,003625 $/MTok
  • Der 75%-Rabatt läuft nicht aus. Er ist jetzt der reguläre Preis.
  • V4-Pro ist beim Output etwa 34-mal günstiger als GPT-5.5, liegt aber bei vielen Coding- und Reasoning-Benchmarks innerhalb von etwa 95% der GPT-5.5-Leistung.
  • Der Cache-Hit-Preis ist der wichtigste operative Hebel: Lange, stabile System-Prompts werden fast kostenlos.
  • Wenn Sie LLM-Features zuletzt gegen GPT-5.5 oder Claude Opus 4.7 kalkuliert haben, ist Ihre Kostenrechnung jetzt wahrscheinlich veraltet.

Warum das für Entwickler relevant ist

LLM-Preise sinken normalerweise schrittweise. DeepSeek macht aus einer aggressiven Promotion einen dauerhaften Listenpreis. Das ist kein kleiner Rabatt, sondern ein Signal: Frontier-nahe Modelle werden deutlich günstiger, besonders für produktive API-Workloads.

Wenn Ihr Produkt LLMs im Hot Path nutzt, zum Beispiel für:

  • Autocomplete
  • Chat mit Retrieval
  • Code-Review
  • Agenten-Loops
  • Tool-Calling
  • JSON-Generierung

dann wirkt sich der Output-Preis direkt auf Ihre Marge aus.

Beispiel:

  • 50 Millionen Output-Token pro Tag
  • Alter Preis: 3,48 $/MTok
  • Neuer Preis: 0,87 $/MTok

Das reduziert die monatlichen Output-Kosten grob von 5.200 $ auf 1.300 $.

Wenn Sie DeepSeek testen oder migrieren möchten, können Sie mit Apidog API-Aufrufe generieren, testen und überwachen, inklusive Streaming, Tool-Aufrufen und JSON-Schema-Validierung.

Im Rest des Artikels geht es um die neue Preisliste, den Vergleich mit GPT-5.5 und Claude Opus 4.7, die Cache-Hit-Kalkulation und ein praktisches Migrationsmodell.

Was sich geändert hat

DeepSeeks offizielle Preisbekanntmachung ist kurz, aber technisch relevant. Drei Punkte sind wichtig.

1. Der 75%-Rabatt ist dauerhaft

Der Rabatt sollte ursprünglich bis zum 31. Mai 2026, 15:59 UTC laufen. Danach hätte der Preis auf den alten Listenpreis zurückspringen sollen.

Das passiert nicht. Der Aktionspreis ist jetzt der reguläre Preis.

2. Die Preissenkung gilt für V4-Pro

DeepSeek-V4-Flash war bereits sehr günstig. Die relevante Änderung betrifft V4-Pro, also das leistungsfähigere Modell.

Zur Einordnung von Flash vs. Pro siehe: Was ist DeepSeek V4.

3. Cache-Hits wurden zusätzlich stark reduziert

Der Cache-Hit-Preis wurde bereits ab dem 26. April 2026, 12:15 UTC auf ein Zehntel des Startpreises gesenkt. Zusammen mit der dauerhaften 75%-Reduktion ergibt sich:

Cache-Hit: 0,003625 $ pro 1 Million Token
Enter fullscreen mode Exit fullscreen mode

Das ist der wichtigste Punkt für Agenten, RAG-Systeme und Long-Context-Workloads.

Neue dauerhafte DeepSeek-V4-Pro Preise

Preise pro 1 Million Token in USD:

Token-Typ Alter Listenpreis Neuer dauerhafter Preis Reduzierung
Input, Cache-Miss 1,74 $ 0,435 $ 75%
Input, Cache-Hit 0,0145 $ 0,003625 $ 75%
Output 3,48 $ 0,87 $ 75%

Wichtig für die Praxis:

  • Output ist der größte Kostenhebel, besonders bei Agenten, Code-Generierung und Reasoning.
  • Cache-Hits sind extrem günstig. Der Unterschied zwischen Input-Miss und Input-Hit liegt bei etwa 120:1.
  • Die Preise gelten für die API. DeepSeeks Web-Chat bleibt davon getrennt.

Für mehr Kontext zu den V4-Preiskategorien: DeepSeek V4 API-Preisgestaltung.

Vergleich: V4-Pro vs. GPT-5.5, Claude Opus 4.7 und Gemini 3.5 Flash

Modell Input ($/MTok) Output ($/MTok) SWE-bench Pro
DeepSeek-V4-Pro, neu 0,435 $ 0,87 $ 55,4%
GPT-5.5 5,00 $ 30,00 $ 58,6%
Claude Opus 4.7 3,00 $ 15,00 $ ~62%
Gemini 3.5 Flash ~1,50 $ ~9,00 $ ~48%
DeepSeek-V4-Flash 0,14 $ 0,28 $ ~42%

Beim Output ist DeepSeek-V4-Pro laut The Decoder etwa 34-mal günstiger als GPT-5.5 und etwa 17-mal günstiger als Claude Opus 4.7.

Bei öffentlichen Coding- und Reasoning-Benchmarks liegt V4-Pro laut DataCamp-Vergleich meist innerhalb von 3 bis 7 Prozentpunkten von GPT-5.5.

Praktische Konsequenz:

  • Für viele Standard-Workloads ist V4-Pro ein direkter Kostenhebel.
  • Für besonders schwierige Fälle kann V4-Pro als günstiges Erstmodell dienen, während GPT-5.5 oder Claude Opus 4.7 nur bei Eskalationen genutzt werden.
  • Für Agenten ist Modell-Routing oft sinnvoller als eine vollständige Migration.

Weitere Vergleiche:

Der unterschätzte Teil: Cache-Hits

Viele Diskussionen fokussieren sich auf den Output-Preis von 0,87 $. Für produktive Systeme ist aber der Cache-Hit-Preis fast genauso wichtig.

DeepSeeks Prompt-Cache greift, wenn das Präfix einer Anfrage byte-identisch mit einer kürzlich vorherigen Anfrage ist. Das Zeitfenster liegt bei etwa 30 Minuten.

Typische cachebare Präfixe:

  • System-Prompt
  • Tool-Definitionen
  • JSON-Schemas
  • Few-Shot-Beispiele
  • feste Agenten-Instruktionen

Diese Blöcke ändern sich oft nicht zwischen Requests. Genau dort entstehen die Einsparungen.

Beispielrechnung: Chat-Agent mit System-Prompt

Angenommen:

  • 6.000 Token System-Prompt
  • 100.000 Chat-Turns pro Tag
  • 200 Token durchschnittliche User-Nachricht
  • 800 Token durchschnittliche Antwort

Ohne Cache-Hits

100.000 × 6.200 Input-Token × 0,435 $ / 1.000.000
= 269,70 $ pro Tag nur für Input
Enter fullscreen mode Exit fullscreen mode

Mit 90% Cache-Hits auf den System-Prompt

User-Input:
100.000 × 200 × 0,435 $ / 1.000.000

System-Prompt:
100.000 × 6.000 × ((0,9 × 0,003625 $) + (0,1 × 0,435 $)) / 1.000.000
Enter fullscreen mode Exit fullscreen mode

Ergebnis: etwa 32 $ pro Tag für Input.

Das ist eine Input-Kostenreduktion von rund 88%.

Mehr zu Prefix-Caching: Deep Dive zum Prompt-Caching.

So optimieren Sie Ihre Prompts für Cache-Hits

1. System-Prompt stabil halten

Schlecht:

Du bist ein Support-Agent.
Aktuelle Uhrzeit: 2026-05-22T10:15:00Z
User-ID: 12345
...
Enter fullscreen mode Exit fullscreen mode

Besser:

Du bist ein Support-Agent.
Nutze die bereitgestellten Tools.
Antworte immer im JSON-Format gemäß Schema.
...
Enter fullscreen mode Exit fullscreen mode

Dynamische Werte gehören in die User-Nachricht oder in separate Tool-Kontexte, nicht in das feste Präfix.

2. Tool-Schemas nicht pro Request neu sortieren

Wenn Sie Tool-Definitionen dynamisch generieren, achten Sie auf stabile Reihenfolge.

Schlecht:

{
  "tools": [
    { "name": "search_docs" },
    { "name": "create_ticket" },
    { "name": "lookup_user" }
  ]
}
Enter fullscreen mode Exit fullscreen mode

und im nächsten Request:

{
  "tools": [
    { "name": "lookup_user" },
    { "name": "search_docs" },
    { "name": "create_ticket" }
  ]
}
Enter fullscreen mode Exit fullscreen mode

Besser: Tools deterministisch sortieren, zum Beispiel alphabetisch nach name.

3. Retrieval-Kontext erst nach dem stabilen Präfix anhängen

Strukturieren Sie Requests so:

[System-Prompt]
[Tool-Schemas]
[Format-Instruktionen]
[User-Frage]
[Retrieval-Kontext]
Enter fullscreen mode Exit fullscreen mode

Nicht so:

[System-Prompt]
[Retrieval-Kontext]
[Tool-Schemas]
[User-Frage]
Enter fullscreen mode Exit fullscreen mode

Der cachebare Block sollte möglichst lang und möglichst stabil am Anfang stehen.

4. Warm-up-Requests nutzen

Wenn ein Agent startet, können Sie eine Anfrage mit dem vollständigen festen Präfix senden, damit der Cache gefüllt wird, bevor echter Traffic kommt.

Beispiel-Pseudocode:

await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    {
      role: "system",
      content: STABLE_SYSTEM_PROMPT_WITH_TOOLS
    },
    {
      role: "user",
      content: "Warm-up. Antworte kurz mit OK."
    }
  ]
});
Enter fullscreen mode Exit fullscreen mode

Was Sie diese Woche konkret tun sollten

Die Migration muss nicht vollständig sein. Besser ist ein schrittweiser Test mit echten Produktions-Traces.

Schritt 1: Token-Verhältnis messen

Berechnen Sie für Ihre wichtigsten Routen:

Output-Token / Gesamt-Token
Input-Token / Gesamt-Token
Cachebarer Input / Gesamt-Input
Enter fullscreen mode Exit fullscreen mode

Wenn Ihr System outputlastig ist, ist V4-Pro besonders attraktiv.

Typische outputlastige Workloads:

  • Code-Generatoren
  • Agenten mit Reasoning
  • Content-Erstellung
  • Summarization mit langen Antworten

Typische inputlastige Workloads:

  • RAG über lange Dokumente
  • juristische Analyse
  • Log-Analyse
  • große JSON- oder CSV-Kontexte

Schritt 2: 100 echte Requests evaluieren

Nehmen Sie 100 Produktions-Traces und führen Sie diese gegen V4-Pro und Ihr aktuelles Modell aus.

Vergleichen Sie:

  • fachliche Korrektheit
  • JSON-Validität
  • Tool-Call-Format
  • Latenz
  • Token-Kosten
  • Fehlerrate

Minimaler Testaufbau:

const models = ["current-model", "deepseek-v4-pro"];

for (const trace of traces) {
  for (const model of models) {
    const result = await runCompletion({
      model,
      messages: trace.messages,
      tools: trace.tools
    });

    await saveEvalResult({
      traceId: trace.id,
      model,
      output: result.output,
      usage: result.usage
    });
  }
}
Enter fullscreen mode Exit fullscreen mode

Schritt 3: Routing statt Big-Bang-Migration

Leiten Sie einfache oder mittlere Requests zu V4-Pro und behalten Sie Ihr Premium-Modell für schwierige Fälle.

Beispiel:

function selectModel(request) {
  if (request.requiresLongTermPlanning) {
    return "premium-model";
  }

  if (request.hasHighRiskToolCall) {
    return "premium-model";
  }

  if (request.userTier === "enterprise" && request.taskCriticality === "high") {
    return "premium-model";
  }

  return "deepseek-v4-pro";
}
Enter fullscreen mode Exit fullscreen mode

Damit erzielen viele Teams den Großteil der Einsparungen, ohne die gesamte Qualität zu riskieren.

Schritt 4: Cache-Präfixe fixieren

Prüfen Sie Ihre System-Prompts auf dynamische Werte:

  • Zeitstempel
  • User-IDs
  • Session-IDs
  • zufällige Request-IDs
  • dynamisch sortierte Tool-Listen
  • variierende Few-Shot-Beispiele

Verschieben Sie diese Werte aus dem System-Prompt heraus.

Schritt 5: Regressionstests einrichten

Mit Apidog können Sie bestehende API-Sammlungen importieren, Requests gegen DeepSeek ausführen und Antworten validieren.

Praktischer Ablauf:

  1. OpenAI-kompatible Collection importieren.
  2. Base URL auf https://api.deepseek.com ändern.
  3. Auth-Header setzen.
  4. Testfälle mit bestehenden Prompts ausführen.
  5. JSON-Schema-Validierung aktivieren.
  6. Ergebnisse gegen Golden Responses vergleichen.

Download: Apidog herunterladen

Für den Endpoint-Aufbau: Wie man die DeepSeek V4 API verwendet.

Beispiel: OpenAI-kompatibler DeepSeek-Request

Wenn Ihre Infrastruktur bereits OpenAI-kompatible Chat-Completions nutzt, ist der Wechsel häufig eine Base-URL-Änderung plus Modellname.

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com"
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    {
      role: "system",
      content: "Du bist ein technischer Assistent. Antworte präzise und im JSON-Format."
    },
    {
      role: "user",
      content: "Erstelle eine Checkliste für einen API-Smoke-Test."
    }
  ],
  response_format: {
    type: "json_object"
  }
});

console.log(completion.choices[0].message.content);
console.log(completion.usage);
Enter fullscreen mode Exit fullscreen mode

Für Tests sollten Sie immer usage speichern, damit Sie echte Kosten pro Route berechnen können.

Kosten pro Route berechnen

Eine einfache Formel:

Kosten =
(input_cache_miss_tokens × 0,435 / 1.000.000)
+ (input_cache_hit_tokens × 0,003625 / 1.000.000)
+ (output_tokens × 0,87 / 1.000.000)
Enter fullscreen mode Exit fullscreen mode

Beispiel in JavaScript:

function estimateDeepSeekCost({
  inputCacheMissTokens,
  inputCacheHitTokens,
  outputTokens
}) {
  return (
    inputCacheMissTokens * 0.435 / 1_000_000 +
    inputCacheHitTokens * 0.003625 / 1_000_000 +
    outputTokens * 0.87 / 1_000_000
  );
}

const cost = estimateDeepSeekCost({
  inputCacheMissTokens: 20_000_000,
  inputCacheHitTokens: 80_000_000,
  outputTokens: 50_000_000
});

console.log(`Geschätzte Kosten: $${cost.toFixed(2)}`);
Enter fullscreen mode Exit fullscreen mode

Vergleich mit anderen Preissenkungen 2026

DeepSeek ist nicht der einzige Anbieter mit sinkenden Preisen. Der Markt bewegt sich klar in Richtung Margenkompression.

Der Unterschied: DeepSeek senkt nicht nur Budget-Modelle, sondern ein Modell im Frontier-nahen Leistungsbereich.

Fazit

DeepSeek hat nicht nur einen Rabatt verlängert. Die neue V4-Pro-Preisstruktur verändert die Kalkulation für produktive LLM-Systeme.

Wenn Sie diese Woche handeln wollen:

  1. Messen Sie Ihre drei wichtigsten LLM-Routen.
  2. Testen Sie 100 echte Produktions-Traces gegen V4-Pro.
  3. Routen Sie einfache und mittlere Fälle zu V4-Pro.
  4. Stabilisieren Sie System-Prompts für Cache-Hits.
  5. Bauen Sie Regressionstests mit Apidog, damit zukünftige Modell- oder Preiswechsel schneller bewertet werden können.

Das Promo-Flag ist weg. Der Rabatt bleibt.

Top comments (0)