Emre Demir

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4 lokal ausführen: Eine Anleitung

DeepSeek V4 wurde am 23. April 2026 mit MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese einzelne Lizenzwahl ändert die Rechnung für jedes Team, das Spitzen-KI auf seiner eigenen Hardware betreiben möchte. V4-Flash (insgesamt 284 Mrd., 13 Mrd. aktiv) passt auf ein Paar H100s bei FP8. V4-Pro (insgesamt 1,6 Billionen, 49 Mrd. aktiv) benötigt einen Cluster, läuft aber bei Code und Reasoning wettbewerbsfähig mit GPT-5.5 und Claude Opus 4.6.

Teste Apidog noch heute

Dieser Leitfaden zeigt dir Schritt für Schritt, wie du DeepSeek V4 lokal bereitstellst. Es werden die Hardware-Anforderungen, Quantisierungsoptionen, Setups für vLLM und SGLang, die Konfiguration der Tool-Nutzung sowie ein Test-Workflow in Apidog behandelt – so validierst du deinen lokalen Server, bevor du Produktionsdaten darauf leitest.

Für eine Produktübersicht siehe was ist DeepSeek V4. Für den gehosteten API-Pfad siehe wie man die DeepSeek V4 API verwendet. Für den Kostenvergleich siehe DeepSeek V4 API-Preise.

TL;DR

V4-Flash läuft auf 2 × H100 80 GB mit FP8 oder 1 × H100 mit INT4. Die Gewichte betragen bei FP8 ~500 GB.
V4-Pro benötigt 16+ H100s mit FP8 für Produktionsdurchsatz; kein Laptop-Modell.
vLLM ist der schnellste Weg zu einem OpenAI-kompatiblen Server. vllm>=0.9.0 bringt V4-Unterstützung.
SGLang ist die Alternative für Teams, die bessere Funktionen für Tool-Nutzung und strukturierte Ausgabe benötigen.
Quantisierung auf AWQ INT4 oder GPTQ INT4 ermöglicht Betrieb von V4-Flash auf einer einzelnen 80-GB-Karte mit ~5 % Qualitätsverlust.
Nutze Apidog, um auf http://localhost:8000/v1 zu verweisen und dieselbe Sammlung wie für die gehostete API wiederzuverwenden.

Wer sollte selbst hosten

Das Selbst-Hosting von V4 ist sinnvoll für:

Compliance-pflichtige Teams: Gesundheitswesen, Finanzen, Recht, Verteidigung – überall, wo Daten das Netzwerk nicht verlassen dürfen. Die MIT-Lizenz eliminiert Nutzungsvereinbarungen und grenzüberschreitende Datenflüsse.
Große, stabile Workloads: Ab ca. 200 Milliarden Tokens pro Monat wird dedizierte Hardware günstiger als die V4-Pro API (1,74 $/Mio. Eingabe, 3,48 $/Mio. Ausgabe).
Feinabstimmung & Forschung: Basis-Checkpoints sind für weiteres Vortraining und Domänenanpassung ausgelegt; die MIT-Lizenz erlaubt kommerzielle Weiterverteilung.

Nicht selbst hosten sollten: Prototypenentwickler, Teams ohne GPU-Betriebserfahrung und alle mit Workloads unter 200 $/Monat im gehosteten API-Modell.

Hardware-Anforderungen

DeepSeek V4 nutzt nativ FP4 + FP8 gemischte Präzision. Die Speicherberechnung ist günstiger als es die reine Parameteranzahl vermuten lässt.

Variante	Gesamtparameter	Aktive Parameter	FP8 VRAM	INT4 VRAM	Minimale Karten
V4-Flash	284 Mrd.	13 Mrd.	~500 GB	~140 GB	2 × H100 80 GB (FP8) oder 1 × H100 (INT4)
V4-Pro	1,6 Billionen	49 Mrd.	~2,4 TB	~700 GB	16 × H100 80 GB (FP8) oder 8 × H100 (INT4)

Wichtige Hinweise:

MoE-Speicher ist Gesamt-, nicht Aktivspeicher. Der VRAM-Bedarf bezieht sich auf alle Experten, nicht nur die aktiven.
H200 & MI300X sind kompatible Alternativen; durch mehr VRAM pro Karte werden weniger Karten benötigt.
Consumer-GPUs ungeeignet. Selbst INT4 passt nicht auf 24-GB-RTX 5090.
Apple Silicon: M3/M4 Max (128 GB RAM) können V4-Flash mit starker Quantisierung langsam laufen lassen – nur als Entwicklungs-Spielwiese, nicht für Produktion.

Schritt 1: Gewichte herunterladen

Offizielle Modelle:

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
deepseek-ai/DeepSeek-V4-Flash-Base und DeepSeek-V4-Pro-Base für Feinabstimmung.

Download per CLI:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Reserviere ~500 GB Speicherplatz für V4-Flash, mehrere TB für V4-Pro. Modelscope.cn ist für China oft schneller.

Schritt 2: Serving-Engine auswählen

Zwei Hauptoptionen:

vLLM: Bester Durchsatz, OpenAI-kompatible Schnittstelle, große Community. Standard.
SGLang: Bessere Tool-Nutzung, strukturierte Ausgabe, Vorteile bei langem Kontext. Wähle dies, wenn Funktionsaufrufe zentral sind.

Beide unterstützen V4 ab aktuellen Versionen.

Schritt 3: V4-Flash mit vLLM bereitstellen

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Flags:

--tensor-parallel-size 2: Modell auf 2 H100s verteilen. Mehr Karten = höhere Zahl.
--max-model-len 1048576: Volles 1M-Token-Kontextfenster. Für weniger Kontext (und mehr VRAM) z.B. 131072.
--enable-prefix-caching: Lokale Cache-Hit-Preise wie bei der gehosteten API.
--dtype auto: Nutzt FP8-Mischpräzision.

Nach dem Start ist der Server OpenAI-kompatibel unter http://localhost:8000/v1.

Schritt 4: V4-Pro mit vLLM bereitstellen

Cluster erforderlich. Befehlsstruktur:

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Hier ist der Kontext auf 512K reduziert, damit das Modell in eine 16-H100-Box passt. Pipeline- und Tensor-Parallelität ermöglichen knotenübergreifenden Betrieb.

Schritt 5: Mit SGLang bereitstellen (Alternative für Tool-Nutzung)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang stellt eine OpenAI-kompatible API unter http://localhost:30000/v1 bereit. Die lang-DSL bietet bessere Funktionsaufruf- und JSON-Ausgabe-Primitives als vLLM.

Schritt 6: Für eine Single-GPU-Box quantisieren

INT4-Quantisierung ermöglicht V4-Flash auf einer 80-GB-Karte mit geringem Qualitätsverlust.

AWQ (empfohlen)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Folge dem GPTQ-Quantisierungs-Recipe; ähnlich wie bei AWQ.

Starte den quantisierten Checkpoint mit vLLM via --quantization awq oder --quantization gptq.

Schritt 7: Mit Apidog testen

Schicke keinen Produktionsverkehr an einen neuen lokalen Server – validiere ihn zuerst.

Apidog herunterladen.
Neue Sammlung mit http://localhost:8000/v1/chat/completions als Ziel anlegen.
Den gleichen Test-Prompt wie bei der gehosteten API nutzen. Ergebnisse vergleichen.
Einen 500K-Token-Kontexttest durchführen, um den KV-Cache zu prüfen.
Einen Tool-Calling-Workflow komplett durchtesten, bevor weitere Systeme angebunden werden.

Die gleiche Sammlung, die du für die gehostete DeepSeek V4 API nutzt, funktioniert lokal durch simples Ändern der Basis-URL – OpenAI-Kompatibilität macht’s möglich.

Beobachtbarkeit und Überwachung

Diese vier Metriken solltest du von Anfang an tracken:

Tokens pro Sekunde: Prompt & Generierung (vLLM bietet /metrics im Prometheus-Format).
GPU-Auslastung: Mit nvidia-smi oder DCGM. < 70 % Auslastung deutet auf zu kleine Batch-Größe hin.
KV-Cache-Trefferrate: Mit --enable-prefix-caching sichtbar; sinkende Rate = weniger Durchsatz.
Anforderungslatenz p50/p95/p99: Mit Tracing; hoher p99 bei stabilem p50 = einzelne Requests blockieren die Queue.

Alle Metriken sollten an Grafana oder euren Observability-Stack weitergeleitet werden.

Feinabstimmung von V4 Basis-Checkpoints

Basis-Checkpoints sind für weiteres Vortraining und SFT gedacht. Standard-Pipeline:

pip install "torch>=2.6" transformers accelerate peft trl

# Standard SFT mit LoRA auf V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Die vollständige Feinabstimmung von V4-Pro ist eine Großaufgabe. Für die meisten Teams sind LoRA-Adapter auf V4-Flash-Base der realistische Weg: viel Qualitätsgewinn, wenig Aufwand.

Häufige Fallstricke

OOM beim Start: Meist ist --max-model-len zu hoch oder --tensor-parallel-size zu niedrig. Kontext halbieren oder Parallelität erhöhen.
Langsamer erster Request: vLLM kompiliert Kernel lazy – erster Aufruf pro Form dauert immer. Mit Dummy-Request vorwärmen.
Fehler beim Parsen der Tool-Nutzung: DeepSeek-Kodierung unterscheidet sich leicht von OpenAI. Nutze ein SDK, das V4 explizit unterstützt.
FP8-Fehler auf älteren Karten: A100s unterstützen FP8 nicht. BF16 verwenden und mit doppeltem VRAM rechnen.

Wann sich das Selbst-Hosting lohnt

Break-Even-Berechnung (siehe Preise der gehosteten DeepSeek V4 API):

V4-Flash bei 200 Mrd. Eingabe + 20 Mrd. Ausgabe/Monat: ~33,6 Tsd. $ (gehostet) vs. ~20 Tsd. $/Monat (8 × H100 gemietet) → Selbst-Hosting spart ~40 %.
V4-Pro bei 500 Mrd. Eingabe + 50 Mrd. Ausgabe/Monat: ~1,04 Mio. $ (gehostet) vs. ~35 Tsd. $/Monat (16 × H100 Cluster) → Selbst-Hosting spart >95 %.

Break-Even für V4-Flash ab ca. 100 Mrd. Tokens/Monat. Darunter lohnt sich gehostet eher.

FAQ

Kann ich V4-Flash auf einer einzelnen A100 ausführen?

Mit starker Quantisierung und reduziertem Kontext – ja, aber langsam. INT4 auf 80-GB-A100: 5–15 Tokens/s. H100 ist optimal.

Unterstützt V4 LoRA-Feinabstimmung?

Ja. Nutze Basis-Checkpoints und Standard-TRL- oder Axolotl-Pipelines. MoE-Routing beeinflusst LoRA nicht.

Ist der lokale Server OpenAI-kompatibel?

Ja. vLLM & SGLang exposen /v1/chat/completions und /v1/completions nach OpenAI-Format. Der API-Leitfaden funktioniert auch mit localhost.

Wie aktiviere ich den Denkmodus lokal?

Im Request-Body thinking_mode: "thinking" oder "thinking_max" übergeben. vLLM und SGLang reichen das Flag ans Modell weiter.

Kann ich von einem lokalen V4-Server streamen?

Ja. Setze stream: true wie bei OpenAI oder gehosteter DeepSeek API.

Was ist der günstigste Weg zum Testen vor Hardware-Kauf?

Miete eine einzelne H100 bei RunPod oder Lambda, führe V4-Flash mit INT4 aus und miss den Durchsatz mit echten Prompts. Für 10–30 $ bekommst du echte Hardwaredaten – schneller als jede Planung.

DEV Community