DeepSeek V4 wurde am 23. April 2026 mit MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese einzelne Lizenzwahl ändert die Rechnung für jedes Team, das Spitzen-KI auf seiner eigenen Hardware betreiben möchte. V4-Flash (insgesamt 284 Mrd., 13 Mrd. aktiv) passt auf ein Paar H100s bei FP8. V4-Pro (insgesamt 1,6 Billionen, 49 Mrd. aktiv) benötigt einen Cluster, läuft aber bei Code und Reasoning wettbewerbsfähig mit GPT-5.5 und Claude Opus 4.6.
Dieser Leitfaden zeigt dir Schritt für Schritt, wie du DeepSeek V4 lokal bereitstellst. Es werden die Hardware-Anforderungen, Quantisierungsoptionen, Setups für vLLM und SGLang, die Konfiguration der Tool-Nutzung sowie ein Test-Workflow in Apidog behandelt – so validierst du deinen lokalen Server, bevor du Produktionsdaten darauf leitest.
Für eine Produktübersicht siehe was ist DeepSeek V4. Für den gehosteten API-Pfad siehe wie man die DeepSeek V4 API verwendet. Für den Kostenvergleich siehe DeepSeek V4 API-Preise.
TL;DR
- V4-Flash läuft auf 2 × H100 80 GB mit FP8 oder 1 × H100 mit INT4. Die Gewichte betragen bei FP8 ~500 GB.
- V4-Pro benötigt 16+ H100s mit FP8 für Produktionsdurchsatz; kein Laptop-Modell.
-
vLLM ist der schnellste Weg zu einem OpenAI-kompatiblen Server.
vllm>=0.9.0bringt V4-Unterstützung. - SGLang ist die Alternative für Teams, die bessere Funktionen für Tool-Nutzung und strukturierte Ausgabe benötigen.
- Quantisierung auf AWQ INT4 oder GPTQ INT4 ermöglicht Betrieb von V4-Flash auf einer einzelnen 80-GB-Karte mit ~5 % Qualitätsverlust.
- Nutze Apidog, um auf
http://localhost:8000/v1zu verweisen und dieselbe Sammlung wie für die gehostete API wiederzuverwenden.
Wer sollte selbst hosten
Das Selbst-Hosting von V4 ist sinnvoll für:
- Compliance-pflichtige Teams: Gesundheitswesen, Finanzen, Recht, Verteidigung – überall, wo Daten das Netzwerk nicht verlassen dürfen. Die MIT-Lizenz eliminiert Nutzungsvereinbarungen und grenzüberschreitende Datenflüsse.
- Große, stabile Workloads: Ab ca. 200 Milliarden Tokens pro Monat wird dedizierte Hardware günstiger als die V4-Pro API (1,74 $/Mio. Eingabe, 3,48 $/Mio. Ausgabe).
- Feinabstimmung & Forschung: Basis-Checkpoints sind für weiteres Vortraining und Domänenanpassung ausgelegt; die MIT-Lizenz erlaubt kommerzielle Weiterverteilung.
Nicht selbst hosten sollten: Prototypenentwickler, Teams ohne GPU-Betriebserfahrung und alle mit Workloads unter 200 $/Monat im gehosteten API-Modell.
Hardware-Anforderungen
DeepSeek V4 nutzt nativ FP4 + FP8 gemischte Präzision. Die Speicherberechnung ist günstiger als es die reine Parameteranzahl vermuten lässt.
| Variante | Gesamtparameter | Aktive Parameter | FP8 VRAM | INT4 VRAM | Minimale Karten |
|---|---|---|---|---|---|
| V4-Flash | 284 Mrd. | 13 Mrd. | ~500 GB | ~140 GB | 2 × H100 80 GB (FP8) oder 1 × H100 (INT4) |
| V4-Pro | 1,6 Billionen | 49 Mrd. | ~2,4 TB | ~700 GB | 16 × H100 80 GB (FP8) oder 8 × H100 (INT4) |
Wichtige Hinweise:
- MoE-Speicher ist Gesamt-, nicht Aktivspeicher. Der VRAM-Bedarf bezieht sich auf alle Experten, nicht nur die aktiven.
- H200 & MI300X sind kompatible Alternativen; durch mehr VRAM pro Karte werden weniger Karten benötigt.
- Consumer-GPUs ungeeignet. Selbst INT4 passt nicht auf 24-GB-RTX 5090.
- Apple Silicon: M3/M4 Max (128 GB RAM) können V4-Flash mit starker Quantisierung langsam laufen lassen – nur als Entwicklungs-Spielwiese, nicht für Produktion.
Schritt 1: Gewichte herunterladen
Offizielle Modelle:
- deepseek-ai/DeepSeek-V4-Flash
- deepseek-ai/DeepSeek-V4-Pro
-
deepseek-ai/DeepSeek-V4-Flash-BaseundDeepSeek-V4-Pro-Basefür Feinabstimmung.
Download per CLI:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Reserviere ~500 GB Speicherplatz für V4-Flash, mehrere TB für V4-Pro. Modelscope.cn ist für China oft schneller.
Schritt 2: Serving-Engine auswählen
Zwei Hauptoptionen:
- vLLM: Bester Durchsatz, OpenAI-kompatible Schnittstelle, große Community. Standard.
- SGLang: Bessere Tool-Nutzung, strukturierte Ausgabe, Vorteile bei langem Kontext. Wähle dies, wenn Funktionsaufrufe zentral sind.
Beide unterstützen V4 ab aktuellen Versionen.
Schritt 3: V4-Flash mit vLLM bereitstellen
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Flags:
-
--tensor-parallel-size 2: Modell auf 2 H100s verteilen. Mehr Karten = höhere Zahl. -
--max-model-len 1048576: Volles 1M-Token-Kontextfenster. Für weniger Kontext (und mehr VRAM) z.B. 131072. -
--enable-prefix-caching: Lokale Cache-Hit-Preise wie bei der gehosteten API. -
--dtype auto: Nutzt FP8-Mischpräzision.
Nach dem Start ist der Server OpenAI-kompatibel unter http://localhost:8000/v1.
Schritt 4: V4-Pro mit vLLM bereitstellen
Cluster erforderlich. Befehlsstruktur:
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Hier ist der Kontext auf 512K reduziert, damit das Modell in eine 16-H100-Box passt. Pipeline- und Tensor-Parallelität ermöglichen knotenübergreifenden Betrieb.
Schritt 5: Mit SGLang bereitstellen (Alternative für Tool-Nutzung)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang stellt eine OpenAI-kompatible API unter http://localhost:30000/v1 bereit. Die lang-DSL bietet bessere Funktionsaufruf- und JSON-Ausgabe-Primitives als vLLM.
Schritt 6: Für eine Single-GPU-Box quantisieren
INT4-Quantisierung ermöglicht V4-Flash auf einer 80-GB-Karte mit geringem Qualitätsverlust.
AWQ (empfohlen)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Folge dem GPTQ-Quantisierungs-Recipe; ähnlich wie bei AWQ.
Starte den quantisierten Checkpoint mit vLLM via --quantization awq oder --quantization gptq.
Schritt 7: Mit Apidog testen
Schicke keinen Produktionsverkehr an einen neuen lokalen Server – validiere ihn zuerst.
- Apidog herunterladen.
- Neue Sammlung mit
http://localhost:8000/v1/chat/completionsals Ziel anlegen. - Den gleichen Test-Prompt wie bei der gehosteten API nutzen. Ergebnisse vergleichen.
- Einen 500K-Token-Kontexttest durchführen, um den KV-Cache zu prüfen.
- Einen Tool-Calling-Workflow komplett durchtesten, bevor weitere Systeme angebunden werden.
Die gleiche Sammlung, die du für die gehostete DeepSeek V4 API nutzt, funktioniert lokal durch simples Ändern der Basis-URL – OpenAI-Kompatibilität macht’s möglich.
Beobachtbarkeit und Überwachung
Diese vier Metriken solltest du von Anfang an tracken:
-
Tokens pro Sekunde: Prompt & Generierung (vLLM bietet
/metricsim Prometheus-Format). -
GPU-Auslastung: Mit
nvidia-smioder DCGM. < 70 % Auslastung deutet auf zu kleine Batch-Größe hin. -
KV-Cache-Trefferrate: Mit
--enable-prefix-cachingsichtbar; sinkende Rate = weniger Durchsatz. - Anforderungslatenz p50/p95/p99: Mit Tracing; hoher p99 bei stabilem p50 = einzelne Requests blockieren die Queue.
Alle Metriken sollten an Grafana oder euren Observability-Stack weitergeleitet werden.
Feinabstimmung von V4 Basis-Checkpoints
Basis-Checkpoints sind für weiteres Vortraining und SFT gedacht. Standard-Pipeline:
pip install "torch>=2.6" transformers accelerate peft trl
# Standard SFT mit LoRA auf V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Die vollständige Feinabstimmung von V4-Pro ist eine Großaufgabe. Für die meisten Teams sind LoRA-Adapter auf V4-Flash-Base der realistische Weg: viel Qualitätsgewinn, wenig Aufwand.
Häufige Fallstricke
-
OOM beim Start: Meist ist
--max-model-lenzu hoch oder--tensor-parallel-sizezu niedrig. Kontext halbieren oder Parallelität erhöhen. - Langsamer erster Request: vLLM kompiliert Kernel lazy – erster Aufruf pro Form dauert immer. Mit Dummy-Request vorwärmen.
- Fehler beim Parsen der Tool-Nutzung: DeepSeek-Kodierung unterscheidet sich leicht von OpenAI. Nutze ein SDK, das V4 explizit unterstützt.
- FP8-Fehler auf älteren Karten: A100s unterstützen FP8 nicht. BF16 verwenden und mit doppeltem VRAM rechnen.
Wann sich das Selbst-Hosting lohnt
Break-Even-Berechnung (siehe Preise der gehosteten DeepSeek V4 API):
- V4-Flash bei 200 Mrd. Eingabe + 20 Mrd. Ausgabe/Monat: ~33,6 Tsd. $ (gehostet) vs. ~20 Tsd. $/Monat (8 × H100 gemietet) → Selbst-Hosting spart ~40 %.
- V4-Pro bei 500 Mrd. Eingabe + 50 Mrd. Ausgabe/Monat: ~1,04 Mio. $ (gehostet) vs. ~35 Tsd. $/Monat (16 × H100 Cluster) → Selbst-Hosting spart >95 %.
Break-Even für V4-Flash ab ca. 100 Mrd. Tokens/Monat. Darunter lohnt sich gehostet eher.
FAQ
Kann ich V4-Flash auf einer einzelnen A100 ausführen?
Mit starker Quantisierung und reduziertem Kontext – ja, aber langsam. INT4 auf 80-GB-A100: 5–15 Tokens/s. H100 ist optimal.
Unterstützt V4 LoRA-Feinabstimmung?
Ja. Nutze Basis-Checkpoints und Standard-TRL- oder Axolotl-Pipelines. MoE-Routing beeinflusst LoRA nicht.
Ist der lokale Server OpenAI-kompatibel?
Ja. vLLM & SGLang exposen /v1/chat/completions und /v1/completions nach OpenAI-Format. Der API-Leitfaden funktioniert auch mit localhost.
Wie aktiviere ich den Denkmodus lokal?
Im Request-Body thinking_mode: "thinking" oder "thinking_max" übergeben. vLLM und SGLang reichen das Flag ans Modell weiter.
Kann ich von einem lokalen V4-Server streamen?
Ja. Setze stream: true wie bei OpenAI oder gehosteter DeepSeek API.
Was ist der günstigste Weg zum Testen vor Hardware-Kauf?
Miete eine einzelne H100 bei RunPod oder Lambda, führe V4-Flash mit INT4 aus und miss den Durchsatz mit echten Prompts. Für 10–30 $ bekommst du echte Hardwaredaten – schneller als jede Planung.

Top comments (0)