DeepSeek veröffentlichte V4 am 23. April 2026 – ein großes Upgrade mit vier neuen Checkpoints, darunter DeepSeek-V4-Pro (1,6 Billionen Parameter, MIT-Lizenz, 1M Token Kontextfenster) und DeepSeek-V4-Flash (284 Milliarden Parameter, gleiches Kontextfenster, offene Gewichte). Benchmarks zeigen, dass die Pro-Variante bei LiveCodeBench und Codeforces vor Claude Opus 4.6 liegt und auf MMLU-Pro GPT-5.4 xHigh erreicht.
Wenn du dich fragst, ob du Claude, GPT-5.5 oder Qwen gegen DeepSeek V4 austauschen solltest, findest du hier einen praxisorientierten Leitfaden: Was ist das Modell, was hat sich gegenüber V3.2 geändert, welche Architektur-Entscheidungen beeinflussen Benchmarks und wie setzt du es direkt ein.
Für die Implementierung findest du einen DeepSeek V4 API-Leitfaden, einen Guide für kostenlosen Zugriff sowie eine vollständige Anwendungsanleitung. Die Requests sind OpenAI-kompatibel und können in Apidog vorbereitet werden, bevor dein API-Key eintrifft.
TL;DR
- DeepSeek V4 ist eine Mixture-of-Experts-Modellfamilie, am 23. April 2026 unter MIT-Lizenz veröffentlicht.
- Vier Checkpoints: V4-Pro, V4-Pro-Base, V4-Flash, V4-Flash-Base.
- V4-Pro: 1,6 Billionen Parameter (49B aktiv); V4-Flash: 284 Milliarden (13B aktiv).
- Beide Varianten: 1M Token Kontextfenster, drei Schlussfolgerungsmodi (Non-Think, Think High, Think Max).
- Benchmarks: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (Pro).
- API unter
api.deepseek.commit Modell-IDsdeepseek-v4-prounddeepseek-v4-flash; Gewichte bei Hugging Face und ModelScope.
Was DeepSeek V4 tatsächlich ist
DeepSeek V4 folgt auf V3 und V3.2 und bleibt bei der Mixture-of-Experts-Architektur, setzt aber auf neue Dimensionen. Bei V4-Pro werden pro Token nur 49B der 1,6T Parameter aktiviert – die Rechenkosten pro Token ähneln so eher einem 50B-Modell. Technische Details findest du im DeepSeek V4 Modellbericht.
Checkpoints:
- DeepSeek-V4-Pro: Flaggschiff, 1,6T Parameter, 49B aktiv, 1M Kontext – Standard für API-Nutzung.
- DeepSeek-V4-Pro-Base: Pretrained-Base, ideal für eigene Fine-Tunes.
- DeepSeek-V4-Flash: Effizienzvariante, 284B Parameter, 13B aktiv, 1M Kontext – für lokale Deployments.
- DeepSeek-V4-Flash-Base: Base-Checkpoint für Flash.
Alle vier sind MIT-lizenziert. Du kannst V4-Pro auf eigener Hardware ohne Lizenzkosten betreiben, anpassen und weitergeben.
Was sich gegenüber V3.2 geändert hat
V4 wurde grundlegend überarbeitet: Neuer Attention-Stack, optimierte Trainingspipeline für längere Kontexte und Effizienz.
| Fähigkeit | V3.2 | V4-Pro |
|---|---|---|
| Gesamtparameter | 685B | 1.6T |
| Aktive Parameter | 37B | 49B |
| Kontextfenster | 128K | 1M |
| Inferenz-FLOPs (1M Kontext) | baseline | 27% von V3.2 |
| KV-Cache (1M Kontext) | baseline | 10% von V3.2 |
| Präzision | FP8 | FP4 + FP8 gemischt |
| Lizenz | DeepSeek-Lizenz | MIT |
| Schlussfolgerungsmodi | einzeln | drei |
Drei Kernpunkte:
- Hybrid-Attention-Stack: Kombiniert Compressed Sparse Attention mit Heavily Compressed Attention – daher 10% KV-Cache.
- Manifold-Constrained Hyper-Connections: Stabilisiert tiefe Netze für bessere Skalierung.
- Muon-Optimierer: Schnellere Konvergenz als AdamW.
Trainingsdaten umfassen 32T Tokens, Post-Training nutzt zweistufige Pipeline (Experten und On-Policy-Destillation).
Wichtige Benchmarks
V4-Pro liefert Top-Werte bei Coding und Wissen. Schwächen bestehen bei Langkontext-Retrieval.
V4-Flash (13B aktiv): MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0. Ideal für eigene Hardware. Details auf der V4-Flash-Karte.
Fazit: V4-Pro ist bei Codierung und offener Faktensuche führend, Gemini 3.1 Pro bleibt bei allgemeinem Wissen vorne, Claude Opus bei 1M-Token-Retrieval.
Drei Schlussfolgerungsmodi
Jeder Checkpoint unterstützt drei Modi – wähle nach Kosten/Nutzen:
- Non-Think: Schnell, ohne Ketten oder Zusatz-Tokens. Für Klassifikation, Routing, kurze Summaries.
- Think High: Standard für anspruchsvolle Aufgaben – mit Schlussfolgerungs-Tokens, Toolplanungen, Output-Prüfung.
- Think Max: Maximale Leistung, längere Reasoning-Chains, empfohlen ab 384K Kontext.
API-Parameter:
{
"model": "deepseek-v4-pro",
"thinking_mode": "think_high",
"temperature": 1.0,
"top_p": 1.0
}
Architektur kompakt erklärt
Drei zentrale Architekturentscheidungen:
- Hybrid Attention: Compressed Sparse für relevante Tokens, Heavily Compressed für Effizienz. Führt zu 27% FLOPs und 10% KV-Cache von V3.2.
- Manifold-Constrained Hyper-Connections: Residuals werden so stabilisiert, dass noch tiefere Netze möglich sind.
- Muon-Optimierer: Ersetzt AdamW, skaliert besser mit MoE-Architekturen.
Keine Einzelinnovation, sondern die Kombination dieser Ansätze auf Billionen-Parameter-Skala.
Verfügbarkeit heute
Vier Checkpoints und API sind ab 24. April 2026 live:
| Oberfläche | Zugang |
|---|---|
| chat.deepseek.com | Kostenloser Web-Chat, V4-Pro Standard, Anmeldung erforderlich |
| DeepSeek API | Live unter api.deepseek.com; Modell-IDs deepseek-v4-pro, deepseek-v4-flash
|
| Hugging Face Gewichte | V4-Pro, V4-Flash, beide MIT |
| ModelScope | Gespiegelte Gewichte für Benutzer in China |
| OpenRouter und Aggregatoren | Innerhalb weniger Tage erwartet; typisches DeepSeek-Startmuster |
deepseek-chat / deepseek-reasoner
|
Veraltet am 24. Juli 2026 |
Achtung: Die alten Modell-IDs werden am 24. Juli 2026 abgeschaltet. Migriere rechtzeitig auf die neuen IDs.
Vergleich mit GPT-5.5 und Claude
- Kosten: V4-Pro und V4-Flash sind Open-Weights. Bei Self-Hosting unschlagbar in der Skalierung.
- Coding: V4-Pro ist auf LiveCodeBench und Codeforces vor GPT-5.5 und Claude Opus.
- Wissensbreite: Gemini 3.1 Pro liegt bei MMLU-Pro vorne, V4-Pro und GPT-5.5 gleichauf. Im SimpleQA schlägt V4 beide.
- Langkontext: Claude Opus ist bei 1M-Token-Retrieval führend.
- Lizenz: MIT – vollständige Produktintegration ohne Lizenzpflicht.
Anwendungsfälle für Entwickler
Setze V4 gezielt ein für:
- Agentische Coding-Loops: Multi-Datei-Debugging, Refactoring, autonome Testkorrektur. Kombiniere mit einem API-Client wie Apidog.
- Langdokument-Reasoning: 1M Kontextfenster reicht für Monorepos, Verträge, Forschungsdaten. Nutze Think High.
- Self-Hosted KI-Produkte: V4-Flash liefert erstmals Frontier-Qualität als Open-Weights für On-Premise.
- Forschung & Fine-Tuning: Base-Checkpoints für individuelles Training, kombiniere mit eigenen Daten für Spezialmodelle.
Nicht optimal für: Massenklassifikation, Embedding Retrieval, Kurzprompt-Chat – hier sind ältere oder kleinere Modelle günstiger.
Preisübersicht
Zum Redaktionszeitpunkt war die V4-API-Preisliste noch nicht final. V3.2 lag bei ca. $0,28 pro 1M Input-Tokens / $0,42 pro 1M Output-Tokens. Erwartung: V4-Flash ähnlich, V4-Pro etwas teurer. Konkurrenz liegt bei $5–15 pro 1M Input. Aktuelle Preise auf der DeepSeek Preisgestaltungsseite.
So testest du V4 heute
Wähle nach "Time to First Token":
Web-Chat:
Gehe zu chat.deepseek.com, melde dich an, stelle im UI den Modus auf Think High. Kostenlos, sofort nutzbar.API:
Besorge dir einen API-Key, setze deinen Client aufhttps://api.deepseek.com, nutze"model": "deepseek-v4-pro". OpenAI-kompatibles Format. Schneller Einstieg mit dem DeepSeek V4 API-Leitfaden.Lokale Gewichte:
Lade die Modelle von Hugging Face oder ModelScope. V4-Flash läuft auf 2–4 H100s, V4-Pro braucht einen Cluster. Inferenzcode im/inference-Ordner des Repos.
Für vollständige How-tos inkl. Prompt-Iteration mit Apidog siehe Anleitung und kostenlosen Zugang.
Apidog herunterladen und Requests vorab anlegen – das OpenAI-Format läuft API-übergreifend.
FAQ
Ist DeepSeek V4 wirklich Open Source?
Ja, alle Checkpoints unter MIT-Lizenz – kommerzielle Nutzung, Modifikation und Weiterverbreitung ohne Restriktionen.
Brauche ich einen GPU-Cluster für V4-Flash?
Für V4-Flash: 2–4 H100s/H200s (full precision), weniger bei Quantisierung. V4-Pro benötigt einen Cluster. Für einfache Tests: API oder chat.deepseek.com.
Wann ist V4 in der DeepSeek API live?
Seit 23. April 2026. Modell-IDs: deepseek-v4-pro, deepseek-v4-flash. Ältere IDs (deepseek-chat, deepseek-reasoner) werden am 24. Juli 2026 abgekündigt.
Wie schneidet V4 gegenüber Kimi und Qwen ab?
V4-Pro erzielt auf LiveCodeBench und Codeforces höhere Scores als Kimi K2 und Qwen 3 Max. Alle drei sind Open-Weights-MoE-Modelle – wähle nach passendem Benchmark.
Eigenes Fine-Tuning möglich?
Ja, Base-Checkpoints sind für Custom-Training vorgesehen. Kombiniere mit eigenen Daten, nutze Standard-SFT-Pipeline. MIT-Lizenz deckt kommerzielle Nutzung ab.
Funktioniert V4 mit OpenAI-kompatiblen Tools?
Ja. API nimmt OpenAI- und Anthropic-Nachrichtenformate (https://api.deepseek.com, https://api.deepseek.com/anthropic). Bestehende OpenAI-Clients laufen mit Austausch der Base-URL. Siehe GPT-5.5 API-Walkthrough für das Muster.



Top comments (0)