DeepSeek V4: Was ist das?

DeepSeek veröffentlichte V4 am 23. April 2026 – ein großes Upgrade mit vier neuen Checkpoints, darunter DeepSeek-V4-Pro (1,6 Billionen Parameter, MIT-Lizenz, 1M Token Kontextfenster) und DeepSeek-V4-Flash (284 Milliarden Parameter, gleiches Kontextfenster, offene Gewichte). Benchmarks zeigen, dass die Pro-Variante bei LiveCodeBench und Codeforces vor Claude Opus 4.6 liegt und auf MMLU-Pro GPT-5.4 xHigh erreicht.

Teste Apidog noch heute

Wenn du dich fragst, ob du Claude, GPT-5.5 oder Qwen gegen DeepSeek V4 austauschen solltest, findest du hier einen praxisorientierten Leitfaden: Was ist das Modell, was hat sich gegenüber V3.2 geändert, welche Architektur-Entscheidungen beeinflussen Benchmarks und wie setzt du es direkt ein.

Für die Implementierung findest du einen DeepSeek V4 API-Leitfaden, einen Guide für kostenlosen Zugriff sowie eine vollständige Anwendungsanleitung. Die Requests sind OpenAI-kompatibel und können in Apidog vorbereitet werden, bevor dein API-Key eintrifft.

TL;DR

DeepSeek V4 ist eine Mixture-of-Experts-Modellfamilie, am 23. April 2026 unter MIT-Lizenz veröffentlicht.
Vier Checkpoints: V4-Pro, V4-Pro-Base, V4-Flash, V4-Flash-Base.
V4-Pro: 1,6 Billionen Parameter (49B aktiv); V4-Flash: 284 Milliarden (13B aktiv).
Beide Varianten: 1M Token Kontextfenster, drei Schlussfolgerungsmodi (Non-Think, Think High, Think Max).
Benchmarks: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (Pro).
API unter api.deepseek.com mit Modell-IDs deepseek-v4-pro und deepseek-v4-flash; Gewichte bei Hugging Face und ModelScope.

Was DeepSeek V4 tatsächlich ist

DeepSeek V4 folgt auf V3 und V3.2 und bleibt bei der Mixture-of-Experts-Architektur, setzt aber auf neue Dimensionen. Bei V4-Pro werden pro Token nur 49B der 1,6T Parameter aktiviert – die Rechenkosten pro Token ähneln so eher einem 50B-Modell. Technische Details findest du im DeepSeek V4 Modellbericht.

Checkpoints:

DeepSeek-V4-Pro: Flaggschiff, 1,6T Parameter, 49B aktiv, 1M Kontext – Standard für API-Nutzung.
DeepSeek-V4-Pro-Base: Pretrained-Base, ideal für eigene Fine-Tunes.
DeepSeek-V4-Flash: Effizienzvariante, 284B Parameter, 13B aktiv, 1M Kontext – für lokale Deployments.
DeepSeek-V4-Flash-Base: Base-Checkpoint für Flash.

Alle vier sind MIT-lizenziert. Du kannst V4-Pro auf eigener Hardware ohne Lizenzkosten betreiben, anpassen und weitergeben.

Was sich gegenüber V3.2 geändert hat

V4 wurde grundlegend überarbeitet: Neuer Attention-Stack, optimierte Trainingspipeline für längere Kontexte und Effizienz.

Fähigkeit	V3.2	V4-Pro
Gesamtparameter	685B	1.6T
Aktive Parameter	37B	49B
Kontextfenster	128K	1M
Inferenz-FLOPs (1M Kontext)	baseline	27% von V3.2
KV-Cache (1M Kontext)	baseline	10% von V3.2
Präzision	FP8	FP4 + FP8 gemischt
Lizenz	DeepSeek-Lizenz	MIT
Schlussfolgerungsmodi	einzeln	drei

Drei Kernpunkte:

Hybrid-Attention-Stack: Kombiniert Compressed Sparse Attention mit Heavily Compressed Attention – daher 10% KV-Cache.
Manifold-Constrained Hyper-Connections: Stabilisiert tiefe Netze für bessere Skalierung.
Muon-Optimierer: Schnellere Konvergenz als AdamW.

Trainingsdaten umfassen 32T Tokens, Post-Training nutzt zweistufige Pipeline (Experten und On-Policy-Destillation).

Wichtige Benchmarks

V4-Pro liefert Top-Werte bei Coding und Wissen. Schwächen bestehen bei Langkontext-Retrieval.

V4-Flash (13B aktiv): MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0. Ideal für eigene Hardware. Details auf der V4-Flash-Karte.

Fazit: V4-Pro ist bei Codierung und offener Faktensuche führend, Gemini 3.1 Pro bleibt bei allgemeinem Wissen vorne, Claude Opus bei 1M-Token-Retrieval.

Drei Schlussfolgerungsmodi

Jeder Checkpoint unterstützt drei Modi – wähle nach Kosten/Nutzen:

Non-Think: Schnell, ohne Ketten oder Zusatz-Tokens. Für Klassifikation, Routing, kurze Summaries.
Think High: Standard für anspruchsvolle Aufgaben – mit Schlussfolgerungs-Tokens, Toolplanungen, Output-Prüfung.
Think Max: Maximale Leistung, längere Reasoning-Chains, empfohlen ab 384K Kontext.

API-Parameter:

{
  "model": "deepseek-v4-pro",
  "thinking_mode": "think_high",
  "temperature": 1.0,
  "top_p": 1.0
}

Architektur kompakt erklärt

Drei zentrale Architekturentscheidungen:

Hybrid Attention: Compressed Sparse für relevante Tokens, Heavily Compressed für Effizienz. Führt zu 27% FLOPs und 10% KV-Cache von V3.2.
Manifold-Constrained Hyper-Connections: Residuals werden so stabilisiert, dass noch tiefere Netze möglich sind.
Muon-Optimierer: Ersetzt AdamW, skaliert besser mit MoE-Architekturen.

Keine Einzelinnovation, sondern die Kombination dieser Ansätze auf Billionen-Parameter-Skala.

Verfügbarkeit heute

Vier Checkpoints und API sind ab 24. April 2026 live:

Oberfläche	Zugang
chat.deepseek.com	Kostenloser Web-Chat, V4-Pro Standard, Anmeldung erforderlich
DeepSeek API	Live unter `api.deepseek.com`; Modell-IDs `deepseek-v4-pro`, `deepseek-v4-flash`
Hugging Face Gewichte	V4-Pro, V4-Flash, beide MIT
ModelScope	Gespiegelte Gewichte für Benutzer in China
OpenRouter und Aggregatoren	Innerhalb weniger Tage erwartet; typisches DeepSeek-Startmuster
`deepseek-chat` / `deepseek-reasoner`	Veraltet am 24. Juli 2026

Achtung: Die alten Modell-IDs werden am 24. Juli 2026 abgeschaltet. Migriere rechtzeitig auf die neuen IDs.

Vergleich mit GPT-5.5 und Claude

Kosten: V4-Pro und V4-Flash sind Open-Weights. Bei Self-Hosting unschlagbar in der Skalierung.
Coding: V4-Pro ist auf LiveCodeBench und Codeforces vor GPT-5.5 und Claude Opus.
Wissensbreite: Gemini 3.1 Pro liegt bei MMLU-Pro vorne, V4-Pro und GPT-5.5 gleichauf. Im SimpleQA schlägt V4 beide.
Langkontext: Claude Opus ist bei 1M-Token-Retrieval führend.
Lizenz: MIT – vollständige Produktintegration ohne Lizenzpflicht.

Anwendungsfälle für Entwickler

Setze V4 gezielt ein für:

Agentische Coding-Loops: Multi-Datei-Debugging, Refactoring, autonome Testkorrektur. Kombiniere mit einem API-Client wie Apidog.
Langdokument-Reasoning: 1M Kontextfenster reicht für Monorepos, Verträge, Forschungsdaten. Nutze Think High.
Self-Hosted KI-Produkte: V4-Flash liefert erstmals Frontier-Qualität als Open-Weights für On-Premise.
Forschung & Fine-Tuning: Base-Checkpoints für individuelles Training, kombiniere mit eigenen Daten für Spezialmodelle.

Nicht optimal für: Massenklassifikation, Embedding Retrieval, Kurzprompt-Chat – hier sind ältere oder kleinere Modelle günstiger.

Preisübersicht

Zum Redaktionszeitpunkt war die V4-API-Preisliste noch nicht final. V3.2 lag bei ca. $0,28 pro 1M Input-Tokens / $0,42 pro 1M Output-Tokens. Erwartung: V4-Flash ähnlich, V4-Pro etwas teurer. Konkurrenz liegt bei $5–15 pro 1M Input. Aktuelle Preise auf der DeepSeek Preisgestaltungsseite.

So testest du V4 heute

Wähle nach "Time to First Token":

Web-Chat:

Gehe zu chat.deepseek.com, melde dich an, stelle im UI den Modus auf Think High. Kostenlos, sofort nutzbar.
API:

Besorge dir einen API-Key, setze deinen Client auf https://api.deepseek.com, nutze "model": "deepseek-v4-pro". OpenAI-kompatibles Format. Schneller Einstieg mit dem DeepSeek V4 API-Leitfaden.
Lokale Gewichte:

Lade die Modelle von Hugging Face oder ModelScope. V4-Flash läuft auf 2–4 H100s, V4-Pro braucht einen Cluster. Inferenzcode im /inference-Ordner des Repos.

Für vollständige How-tos inkl. Prompt-Iteration mit Apidog siehe Anleitung und kostenlosen Zugang.

Apidog herunterladen und Requests vorab anlegen – das OpenAI-Format läuft API-übergreifend.

FAQ

Ist DeepSeek V4 wirklich Open Source?

Ja, alle Checkpoints unter MIT-Lizenz – kommerzielle Nutzung, Modifikation und Weiterverbreitung ohne Restriktionen.

Brauche ich einen GPU-Cluster für V4-Flash?

Für V4-Flash: 2–4 H100s/H200s (full precision), weniger bei Quantisierung. V4-Pro benötigt einen Cluster. Für einfache Tests: API oder chat.deepseek.com.

Wann ist V4 in der DeepSeek API live?

Seit 23. April 2026. Modell-IDs: deepseek-v4-pro, deepseek-v4-flash. Ältere IDs (deepseek-chat, deepseek-reasoner) werden am 24. Juli 2026 abgekündigt.

Wie schneidet V4 gegenüber Kimi und Qwen ab?

V4-Pro erzielt auf LiveCodeBench und Codeforces höhere Scores als Kimi K2 und Qwen 3 Max. Alle drei sind Open-Weights-MoE-Modelle – wähle nach passendem Benchmark.

Eigenes Fine-Tuning möglich?

Ja, Base-Checkpoints sind für Custom-Training vorgesehen. Kombiniere mit eigenen Daten, nutze Standard-SFT-Pipeline. MIT-Lizenz deckt kommerzielle Nutzung ab.

Funktioniert V4 mit OpenAI-kompatiblen Tools?

Ja. API nimmt OpenAI- und Anthropic-Nachrichtenformate (https://api.deepseek.com, https://api.deepseek.com/anthropic). Bestehende OpenAI-Clients laufen mit Austausch der Base-URL. Siehe GPT-5.5 API-Walkthrough für das Muster.