Emre Demir

Posted on May 27 • Originally published at apidog.com

Chinesische LLM Preisschlacht 2026: Top 5 API Kosten im Vergleich

Chinesische Labore haben die LLM-API-Preise im ersten Halbjahr 2026 sechsmal gesenkt, wobei drei dieser Senkungen als dauerhaft deklariert wurden. DeepSeek V4-Pro kostet jetzt 0,87 $ pro Million Output-Tokens. Xiaomi MiMo V2.5 hat seine gestaffelten Preise für lange Kontexte auf pauschal 3 $ pro Output-MTok gesenkt. Alibabas Qwen3 Max startet bei 3,90 $. Moonshots Kimi K2.6 hält den niedrigsten Cache-Hit-Preis bei 0,07 $. Zhipus GLM-5 liegt bei 3,20 $ pro Output-MTok. Dieser Leitfaden zeigt, welches Modell für welche Arbeitslast passt und wie Sie die APIs praktisch vergleichen.

Teste Apidog noch heute

TL;DR

Günstigste pro Output-Token: DeepSeek V4-Pro mit 0,87 $/MTok. Etwa 34-mal günstiger als GPT-5.5.
Günstigste bei 1M Kontext: Xiaomi MiMo V2.5 Pro mit 3 $/MTok Output, pauschal unabhängig von der Eingabelänge.
Bestes Preis-Leistungs-Verhältnis für allgemeinen Produktionseinsatz: Alibaba Qwen3 Max mit 3,90 $/MTok Output und 262K Kontext.
Niedrigstes Cache-Hit-Minimum für lange System-Prompts: Moonshot Kimi K2.6 mit 0,07 $/MTok im Cache.
Arbeitslasten mit hohem Denkaufwand: Zhipu GLM-5 mit 3,20 $/MTok Output, 200K Kontext und Stärken bei strukturiertem Chain-of-Thought-Denken.
Praktische Empfehlung: Routen Sie kurze, ausgabeintensive Requests zu DeepSeek, lange Kontexte zu MiMo, stabile Agenten-Prompts zu Kimi und evaluieren Sie Qwen/GLM für Qualität, Sprache und Reasoning.

Wie sich der chinesische LLM-Preiskrieg 2026 entwickelte

Die Preisdynamik begann im vierten Quartal 2025 und beschleunigte sich im zweiten Quartal 2026:

Q4 2025: DeepSeek V3.2 wird mit 0,28 $/MTok Input eingeführt und unterbietet US-Spitzenpreise um eine Größenordnung. Kimi K2.6 folgt mit gestaffelten, kontextabhängigen Preisen und einer Cache-Hit-Rate von 0,07 $/MTok.
März 2026: Xiaomi stellt MiMo V2-Pro auf OpenRouter zu wettbewerbsfähigen, aber gestaffelten Preisen vor.
April 2026: DeepSeek V4 wird mit einem Aktionsrabatt von 75 % eingeführt, der am 31. Mai auslaufen sollte.
22. Mai 2026: DeepSeek gibt bekannt, dass der Rabatt von 75 % dauerhaft ist. V4-Pro bleibt auf unbestimmte Zeit bei 0,435 $/0,87 $. Die vollständige Aufschlüsselung finden Sie hier.
27. Mai 2026: Xiaomi macht die MiMo V2.5-Preise dauerhaft auf 1 $/3 $, wodurch der Multiplikator für lange Kontexte abgeschafft wird. Mehr zur MiMo-Senkung.

Die Senkungen folgen klaren Positionierungen:

DeepSeek: niedrigste Kosten pro Token.
MiMo: lange Kontexte bis 1M Token ohne Preis-Multiplikator.
Qwen: Produktionsmodell mit starkem Ökosystem.
Kimi: günstiges Prompt-Caching für Agenten-Workflows.
GLM: strukturierte Reasoning- und Chain-of-Thought-Aufgaben.

Auf einen Blick: Top 5 chinesische LLM-APIs im Mai 2026

Modell	Eingabe ($/MTok)	Ausgabe ($/MTok)	Cache-Treffer	Kontext	Am besten geeignet für
DeepSeek V4-Pro	$0.435	$0.87	$0.003625	128K	Günstigste pro Token, Coding
Xiaomi MiMo V2.5 Pro	$1.00	$3.00	$0.20	1M	RAG für lange Dokumente, Repository-Agenten
Alibaba Qwen3 Max	$0.78	$3.90	$0.156	262K	Produktionsbalance
Moonshot Kimi K2.6	$0.16–$2.00 gestaffelt	~$2.50	$0.07	128K	Lange System-Prompts, Coding-Agenten
Zhipu GLM-5	$1.00	$3.20	anbieterdefiniert	200K	Strukturiertes Denken

Wichtig für die Implementierung:

Pauschalpreise vereinfachen Kapazitätsplanung. DeepSeek und MiMo sind hier am einfachsten zu kalkulieren.
Cache-Hit-Raten separat bewerten. Für Agenten mit stabilem System-Prompt ist nicht der Listenpreis bei Cache-Fehlern entscheidend, sondern die Cache-Rate. Eine detaillierte Analyse zum Prompt-Caching erklärt die Mechanik.
Kontextfenster bestimmen das Routing. Wenn Ihre Requests regelmäßig über 300K Token liegen, ist MiMo V2.5 praktisch die direkte Option in diesem Vergleich.

Kosten schnell überschlagen

Nutzen Sie für eine erste Schätzung diese einfache Formel:

Kosten = input_mtok * input_preis + output_mtok * output_preis

Beispiel für 10M Input-Tokens und 3M Output-Tokens:

const models = {
  deepseekV4Pro: { input: 0.435, output: 0.87 },
  mimoV25Pro: { input: 1.0, output: 3.0 },
  qwen3Max: { input: 0.78, output: 3.9 },
  glm5: { input: 1.0, output: 3.2 },
};

function estimateCost(model, inputMTok, outputMTok) {
  return inputMTok * model.input + outputMTok * model.output;
}

console.log(estimateCost(models.deepseekV4Pro, 10, 3)); // 6.96
console.log(estimateCost(models.mimoV25Pro, 10, 3));    // 19
console.log(estimateCost(models.qwen3Max, 10, 3));      // 19.5
console.log(estimateCost(models.glm5, 10, 3));          // 19.6

Für echte Produktionskosten sollten Sie zusätzlich erfassen:

durchschnittliche Input-Tokens pro Request
durchschnittliche Output-Tokens pro Request
Cache-Hit-Rate
Kontextlängen-Verteilung
Latenz und Fehlerrate pro Anbieter

DeepSeek: die günstigsten pro Token

Modelle: V4-Pro mit 0,435 $ Input / 0,87 $ Output / 0,003625 $ Cache-Treffer und 128K Kontext; V4-Flash mit 0,14 $ / 0,28 $.

DeepSeek V4-Pro ist die Preisuntergrenze im chinesischen Spitzenbereich. Die dauerhafte Preissenkung vom 22. Mai setzte die Output-Token-Preise auf 0,87 $/MTok fest. Der Cache-Hit von 0,003625 $/MTok ist die niedrigste Anbieter-Rate von einem großen Labor. Bestätigt auf DeepSeeks offizieller Preisseite.

Geeignete Workloads

Nutzen Sie V4-Pro für:

Codegenerierung
Agentenketten mit viel Output
Content-Tools
stabile System-Prompts mit 5K bis 10K Token
kostenempfindliche Produktion, wenn ein kleiner Qualitätsrückstand akzeptabel ist

Nicht ideal für

Vermeiden Sie V4-Pro bei:

Dokumenten-Workloads über 128K Kontext
stark latenzkritischem Echtzeit-Chat
Anforderungen, bei denen maximale Benchmark-Qualität wichtiger ist als Kosten

Minimaler API-Test

Viele Anbieter unterstützen OpenAI-kompatible Chat-Completions. Ein Basistest kann so aussehen:

curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      { "role": "system", "content": "Du bist ein präziser Coding-Assistent." },
      { "role": "user", "content": "Schreibe eine JavaScript-Funktion zur Debounce-Logik." }
    ]
  }'

Weitere Informationen:

Xiaomi MiMo: die günstigste 1M-Kontext-Option

Modelle: MiMo V2.5 Pro mit 1,00 $ Input / 3,00 $ Output / 0,20 $ Cache und 1M Kontext; MiMo V2 Flash mit etwa 0,10 $ / 0,40 $ und 256K Kontext.

Xiaomis dauerhafte Preissenkung vom 27. Mai vereinheitlichte die MiMo V2.5-Preise über alle Kontextfenster hinweg. Die alten gestaffelten Preise für lange Kontexte sind damit nicht mehr relevant. Die neue Preisgestaltung wendet denselben 1 $/3 $-Satz an, egal ob Sie 5K oder 950K Token senden. Die offizielle Mitteilung zur Preisaktualisierung bezeichnet die Senkung als dauerhaft.

Geeignete Workloads

Nutzen Sie MiMo V2.5 Pro für:

RAG über lange Dokumente
Repository-weite Codeanalyse
Zusammenfassung vieler Dokumente
Kontexte zwischen 300K und 1M Token
Batch-Dokumentenverarbeitung mit planbaren Kosten

Nicht ideal für

Vermeiden Sie MiMo V2.5 Pro bei:

kurzen Chat-Prompts, die DeepSeek günstiger verarbeiten kann
sub-sekundenkritischen Workloads
einfachen Klassifizierungs- oder Extraktionsaufgaben

Routing-Regel

Eine einfache Produktionsregel:

function selectModel({ inputTokens, taskType }) {
  if (inputTokens > 300_000) return "mimo-v2.5-pro";
  if (taskType === "code_generation") return "deepseek-v4-pro";
  return "qwen3-max";
}

Weitere Informationen:

Alibaba Qwen: das Produktions-Arbeitstier

Modelle: Qwen3 Max mit 0,78 $ Input / 3,90 $ Output / 0,156 $ Cache und 262K Kontext. Das neuere Qwen 3.7 Max mit 2,50 $/MTok Eingabe und 1M Kontext wird derzeit eingeführt. Preise verifiziert anhand pricepertoken's Qwen3 Max-Übersicht.

Qwen3 Max ist Alibabas Flaggschiff und eines der am häufigsten eingesetzten chinesischen Modelle in internationaler Produktion. Es ist nicht das billigste Modell, bietet aber ein breites Tooling-Ökosystem, OpenAI-kompatible Nutzung, Anthropic-Protokoll-Kompatibilität und Alibaba-Cloud-Enterprise-Hosting.

Geeignete Workloads

Nutzen Sie Qwen3 Max für:

mehrsprachige Anwendungen
Kundensupport in asiatischen Sprachen
Enterprise-Deployments mit Cloud-Region-Anforderungen
Workloads zwischen 200K und 262K Kontext
Anwendungen, bei denen Stabilität wichtiger ist als minimale Kosten

Nicht ideal für

Vermeiden Sie Qwen3 Max bei:

ausgabeintensiven, stark kostenoptimierten Jobs
einfachen Code- oder Content-Generierungen, die DeepSeek ausreichend gut erledigt

Weitere Informationen:

Qwen 3 vs. OpenAI & DeepSeek: detaillierter technischer Vergleich für API-Entwickler

Moonshot Kimi: der Coding-Spezialist

Modelle: Kimi K2.6 mit gestaffelten Eingabepreisen basierend auf dem Kontext, 0,16 $ bis 2,00 $/MTok über 8K-, 32K-, 64K- und 128K-Bänder, 0,07 $/MTok Cache-Hit-Minimum und Ausgabepreisen um 2,50 $/MTok im mittleren Band.

Kimi K2.6 ist besonders relevant, wenn Sie denselben umfangreichen System-Prompt über viele Interaktionen wiederverwenden. Dazu zählen Coding-Agenten, Kundensupport-Bots mit stabiler Persona und Retrieval-Pipelines mit wiederkehrenden Kontextblöcken.

Geeignete Workloads

Nutzen Sie K2.6 für:

Coding-Agenten im Claude-Code-Stil
stabile Tool-Calling-Flows
langlebige Chat-Sitzungen
wiederverwendbare Few-Shot-Prompts
Agenten, bei denen Cache-Hits häufig auftreten

Nicht ideal für

Vermeiden Sie K2.6 bei:

stark wechselnden Prefixes
unvorhersehbaren Kontextlängen
Budgets, die feste Kosten pro Request benötigen

Cache-Präfixe stabil halten

Praktisch bedeutet das: Trennen Sie stabile und variable Prompt-Teile.

const stablePrefix = `
Du bist ein Coding-Agent.
Halte dich strikt an das Tool-Call-JSON-Schema.
Nutze keine freien Textantworten, wenn ein Tool erforderlich ist.
`;

function buildPrompt(userRequest, repoContext) {
  return [
    { role: "system", content: stablePrefix },
    { role: "user", content: `Repository-Kontext:\n${repoContext}\n\nAufgabe:\n${userRequest}` },
  ];
}

Je stabiler der Anfang Ihrer Nachrichtenstruktur bleibt, desto besser kann Prompt-Caching greifen.

Weitere Informationen:

Ist der Kimi K2 API-Preis den Hype für Entwickler im Jahr 2026 wirklich wert?

Zhipu GLM: der Herausforderer im Bereich Denken

Modelle: GLM-5 mit 1,00 $ Input / 3,20 $ Output und 200K Kontext; GLM-5.1 mit 0,98 $ / 3,08 $ und 200K Kontext. Preise verifiziert anhand Z.AI’s offizieller Preisübersicht.

Zhipus GLM-5 wurde mit einer Preiserhöhung von 30 % gegenüber GLM-4.7 eingeführt und später durch GLM-5.1 mit leichtem Rabatt ergänzt. Die Positionierung ist klar: nicht die günstigste Option, sondern stark bei strukturiertem Denken und Chain-of-Thought-Aufgaben.

Geeignete Workloads

Nutzen Sie GLM-5 für:

Mathematik
formale Logik
strukturierte Analysen
Finanzanalyse
juristische Zusammenfassungen
wissenschaftliches Reasoning
mehrstufige Agenten-Workflows

Nicht ideal für

Vermeiden Sie GLM-5 bei:

reiner Inhaltserstellung
einfachen Zusammenfassungen
stark kostenempfindlichen Anwendungen
Aufgaben, bei denen Reasoning-Qualität keinen klaren Mehrwert bringt

Weitere Informationen:

Die Günstigsten pro Arbeitslast: eine Käufermatrix

Arbeitslast	Gewinner	Warum
Codegenerierung, ausgabeintensiv	DeepSeek V4-Pro	0,87 $/MTok Output ist unschlagbar
RAG für lange Dokumente über 300K Kontext	Xiaomi MiMo V2.5 Pro	Einzige pauschalpreisige 1M-Kontext-Option
Coding-Agent mit stabilem System-Prompt	Kimi K2.6	0,07 $/MTok Cache-Hit-Minimum
Mehrsprachiger Kundensupport	Alibaba Qwen3 Max	Stärkste nicht-englische Leistung
Mathematik, formale Logik, strukturierte Analyse	Zhipu GLM-5	Beste Chain-of-Thought-Qualität

Praktische Routing-Strategien

1. Zwei-Modelle-Routing

Viele Teams leiten 70 bis 85 % des Traffics an DeepSeek V4-Pro weiter und reservieren ein stärkeres oder spezialisiertes Modell für schwierige Fälle.

function routeRequest(request) {
  if (request.requiresFormalReasoning) return "glm-5";
  if (request.inputTokens > 300_000) return "mimo-v2.5-pro";
  if (request.language !== "en" && request.isCustomerSupport) return "qwen3-max";
  return "deepseek-v4-pro";
}

2. Langkontext-Segmentierung

Wenn Ihre Anwendung sowohl kurze als auch lange Kontexte verarbeitet:

kurze Prompts: DeepSeek
mittlere Prompts mit Enterprise-Anforderungen: Qwen
sehr lange Prompts: MiMo
stabile Agenten-Prompts: Kimi

3. Cache-Präfixe konsolidieren

Unabhängig vom Modell sollten Sie Ihre System-Prompts standardisieren:

keine dynamischen Timestamps im System-Prompt
keine zufälligen IDs im stabilen Prefix
Few-Shot-Beispiele unverändert halten
variable User-Daten möglichst spät im Prompt platzieren

Qualitäts- und Benchmark-Hinweise

Preise sind nur relevant, wenn das Modell die Aufgabe zuverlässig erfüllt.

Laut Artificial Analysis gruppieren sich die fünf Modelle in diesem Vergleich innerhalb von 5 bis 10 Prozentpunkten voneinander bei den meisten öffentlichen Benchmarks. Die praktischen Unterschiede:

DeepSeek V4-Pro: Stark beim Coding und Reasoning; leichte Lücke zu GPT-5.5 bei langfristigen Agentenaufgaben.
MiMo V2.5 Pro: Stark bei Long-Context-Retrieval; mittelmäßig beim Coding.
Qwen3 Max: Beste nicht-englische Leistung und starke allgemeine Produktionsqualität.
Kimi K2.6: Starke Tool-Call-Format-Konformität, insbesondere bei parallelen Tool-Aufrufen.
GLM-5: Beste Chain-of-Thought-Denkqualität in diesem Set.

Führen Sie vor einer Migration eine eigene Evaluierung mit mindestens 100 repräsentativen Beispielen durch. Öffentliche Benchmarks zeigen die Richtung, aber Ihre Produktionsdaten entscheiden.

Evaluierungs-Checkliste für Entwickler

Bevor Sie ein Modell produktiv routen, messen Sie:

Antwortqualität: manuell oder mit Golden-Set-Scores
JSON-Validität: besonders bei Tool Calls
Latenz: Time-to-first-token und vollständige Antwortzeit
Kosten: Input, Output und Cache getrennt
Fehlerrate: HTTP-Fehler, Rate Limits, Schema-Verstöße
Kontextrobustheit: kurze, mittlere und lange Prompts separat testen

Ein einfaches Ergebnisformat:

{
  "model": "deepseek-v4-pro",
  "test_case_id": "codegen-042",
  "input_tokens": 8200,
  "output_tokens": 1400,
  "latency_ms": 1840,
  "schema_valid": true,
  "quality_score": 4,
  "estimated_cost_usd": 0.00478
}

Alle fünf mit Apidog testen

Ein Multi-Modell-Produktions-Deployment benötigt einen Multi-Modell-Test-Harness. Apidog verwaltet alle fünf chinesischen APIs aus einem einzigen Arbeitsbereich, da alle fünf OpenAI Chat Completions Request Bodies akzeptieren, mit geringfügigen Kompatibilitäts-Eigenheiten.

Der Workflow:

Erstellen Sie eine Umgebung pro Anbieter in Apidog:
- api.deepseek.com
- platform.xiaomimimo.com
- Alibaba Cloud Model Studio
- Moonshots api.moonshot.cn
- Zhipus open.bigmodel.cn
Importieren Sie das OpenAI Chat Completion Schema einmal.
Ändern Sie die Basis-URL pro Umgebung.
Führen Sie dasselbe Testszenario auf allen fünf Modellen aus.
Vergleichen Sie Antworten, Scores, Tokenverbrauch und Latenzen.
Validieren Sie tool_calls per JSON Schema, um Anbieterunterschiede im Streaming-Format zu erkennen.

Beispiel für ein minimales Tool-Call-Schema:

{
  "type": "object",
  "required": ["tool_calls"],
  "properties": {
    "tool_calls": {
      "type": "array",
      "items": {
        "type": "object",
        "required": ["id", "type", "function"],
        "properties": {
          "id": { "type": "string" },
          "type": { "const": "function" },
          "function": {
            "type": "object",
            "required": ["name", "arguments"],
            "properties": {
              "name": { "type": "string" },
              "arguments": { "type": "string" }
            }
          }
        }
      }
    }
  }
}

Laden Sie Apidog herunter, importieren Sie Ihre Testfälle, und Sie haben in weniger als fünfzehn Minuten einen funktionierenden Fünf-Wege-Vergleich.

Weitere Modellanalysen:

Wie es mit dem Preiskrieg weitergeht

Die Preisuntergrenze hat sich im Mai zweimal verschoben. Weitere Änderungen sind wahrscheinlich.

Mögliche nächste Bewegungen:

Qwen-Antwort: Alibaba war selten der erste Anbieter mit Preissenkungen, folgt aber oft innerhalb weniger Wochen. Eine Qwen3-Max-Überarbeitung oder Qwen-3.8-Ankündigung bis Juli ist plausibel.
GLM-Antwort: Zhipus 30%ige Preiserhöhung für GLM-5 wirkt in diesem Markt zunehmend gegenläufig. Ein GLM-5.2 mit struktureller Preissenkung wäre plausibel.
Kimi-Vereinfachung: Gestaffelte Kontextpreise verlieren an Attraktivität. Moonshot könnte K2.6 vereinheitlichen, um näher an MiMos Struktur zu kommen.

Nächste Schritte

Wählen Sie Ihre drei wichtigsten Produktions-Workloads.
Ordnen Sie sie der Käufermatrix zu.
Bauen Sie ein 100-Beispiele-Golden-Set.
Testen Sie DeepSeek, MiMo, Qwen, Kimi und GLM mit identischen Prompts.
Messen Sie Kosten, Latenz, Qualität und Schema-Validität.
Implementieren Sie Routing statt ein einzelnes Standardmodell.
Stabilisieren Sie Ihre Cache-Präfixe.

Die Preisuntergrenze ist noch nicht erreicht. Bauen Sie Ihren Stack so, dass Sie neue Preissenkungen innerhalb von Stunden evaluieren können, nicht erst nach Wochen.

DEV Community

Chinesische LLM Preisschlacht 2026: Top 5 API Kosten im Vergleich

TL;DR

Wie sich der chinesische LLM-Preiskrieg 2026 entwickelte

Auf einen Blick: Top 5 chinesische LLM-APIs im Mai 2026

Kosten schnell überschlagen

DeepSeek: die günstigsten pro Token

Geeignete Workloads

Nicht ideal für

Minimaler API-Test

Xiaomi MiMo: die günstigste 1M-Kontext-Option

Geeignete Workloads

Nicht ideal für

Routing-Regel

Alibaba Qwen: das Produktions-Arbeitstier

Geeignete Workloads

Nicht ideal für

Moonshot Kimi: der Coding-Spezialist

Geeignete Workloads

Nicht ideal für

Cache-Präfixe stabil halten

Zhipu GLM: der Herausforderer im Bereich Denken

Geeignete Workloads

Nicht ideal für

Die Günstigsten pro Arbeitslast: eine Käufermatrix

Praktische Routing-Strategien

1. Zwei-Modelle-Routing

2. Langkontext-Segmentierung

3. Cache-Präfixe konsolidieren

Qualitäts- und Benchmark-Hinweise

Evaluierungs-Checkliste für Entwickler

Alle fünf mit Apidog testen

Wie es mit dem Preiskrieg weitergeht

Nächste Schritte

Top comments (0)