DEV Community

Cover image for DeepSeek V4 lokal ausführen: Eine Anleitung
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

DeepSeek V4 lokal ausführen: Eine Anleitung

DeepSeek V4 wurde am 23. April 2026 mit MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese einzelne Lizenzwahl ändert die Rechnung für jedes Team, das Spitzen-KI auf seiner eigenen Hardware betreiben möchte. V4-Flash (insgesamt 284 Mrd., 13 Mrd. aktiv) passt auf ein Paar H100s bei FP8. V4-Pro (insgesamt 1,6 Billionen, 49 Mrd. aktiv) benötigt einen Cluster, läuft aber bei Code und Reasoning wettbewerbsfähig mit GPT-5.5 und Claude Opus 4.6.

Teste Apidog noch heute

Dieser Leitfaden zeigt dir Schritt für Schritt, wie du DeepSeek V4 lokal bereitstellst. Es werden die Hardware-Anforderungen, Quantisierungsoptionen, Setups für vLLM und SGLang, die Konfiguration der Tool-Nutzung sowie ein Test-Workflow in Apidog behandelt – so validierst du deinen lokalen Server, bevor du Produktionsdaten darauf leitest.

Für eine Produktübersicht siehe was ist DeepSeek V4. Für den gehosteten API-Pfad siehe wie man die DeepSeek V4 API verwendet. Für den Kostenvergleich siehe DeepSeek V4 API-Preise.

TL;DR

  • V4-Flash läuft auf 2 × H100 80 GB mit FP8 oder 1 × H100 mit INT4. Die Gewichte betragen bei FP8 ~500 GB.
  • V4-Pro benötigt 16+ H100s mit FP8 für Produktionsdurchsatz; kein Laptop-Modell.
  • vLLM ist der schnellste Weg zu einem OpenAI-kompatiblen Server. vllm>=0.9.0 bringt V4-Unterstützung.
  • SGLang ist die Alternative für Teams, die bessere Funktionen für Tool-Nutzung und strukturierte Ausgabe benötigen.
  • Quantisierung auf AWQ INT4 oder GPTQ INT4 ermöglicht Betrieb von V4-Flash auf einer einzelnen 80-GB-Karte mit ~5 % Qualitätsverlust.
  • Nutze Apidog, um auf http://localhost:8000/v1 zu verweisen und dieselbe Sammlung wie für die gehostete API wiederzuverwenden.

Wer sollte selbst hosten

Das Selbst-Hosting von V4 ist sinnvoll für:

  1. Compliance-pflichtige Teams: Gesundheitswesen, Finanzen, Recht, Verteidigung – überall, wo Daten das Netzwerk nicht verlassen dürfen. Die MIT-Lizenz eliminiert Nutzungsvereinbarungen und grenzüberschreitende Datenflüsse.
  2. Große, stabile Workloads: Ab ca. 200 Milliarden Tokens pro Monat wird dedizierte Hardware günstiger als die V4-Pro API (1,74 $/Mio. Eingabe, 3,48 $/Mio. Ausgabe).
  3. Feinabstimmung & Forschung: Basis-Checkpoints sind für weiteres Vortraining und Domänenanpassung ausgelegt; die MIT-Lizenz erlaubt kommerzielle Weiterverteilung.

Nicht selbst hosten sollten: Prototypenentwickler, Teams ohne GPU-Betriebserfahrung und alle mit Workloads unter 200 $/Monat im gehosteten API-Modell.

Hardware-Anforderungen

DeepSeek V4 nutzt nativ FP4 + FP8 gemischte Präzision. Die Speicherberechnung ist günstiger als es die reine Parameteranzahl vermuten lässt.

Variante Gesamtparameter Aktive Parameter FP8 VRAM INT4 VRAM Minimale Karten
V4-Flash 284 Mrd. 13 Mrd. ~500 GB ~140 GB 2 × H100 80 GB (FP8) oder 1 × H100 (INT4)
V4-Pro 1,6 Billionen 49 Mrd. ~2,4 TB ~700 GB 16 × H100 80 GB (FP8) oder 8 × H100 (INT4)

Wichtige Hinweise:

  • MoE-Speicher ist Gesamt-, nicht Aktivspeicher. Der VRAM-Bedarf bezieht sich auf alle Experten, nicht nur die aktiven.
  • H200 & MI300X sind kompatible Alternativen; durch mehr VRAM pro Karte werden weniger Karten benötigt.
  • Consumer-GPUs ungeeignet. Selbst INT4 passt nicht auf 24-GB-RTX 5090.
  • Apple Silicon: M3/M4 Max (128 GB RAM) können V4-Flash mit starker Quantisierung langsam laufen lassen – nur als Entwicklungs-Spielwiese, nicht für Produktion.

Schritt 1: Gewichte herunterladen

Offizielle Modelle:

Download per CLI:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False
Enter fullscreen mode Exit fullscreen mode

Reserviere ~500 GB Speicherplatz für V4-Flash, mehrere TB für V4-Pro. Modelscope.cn ist für China oft schneller.

Schritt 2: Serving-Engine auswählen

Zwei Hauptoptionen:

  • vLLM: Bester Durchsatz, OpenAI-kompatible Schnittstelle, große Community. Standard.
  • SGLang: Bessere Tool-Nutzung, strukturierte Ausgabe, Vorteile bei langem Kontext. Wähle dies, wenn Funktionsaufrufe zentral sind.

Beide unterstützen V4 ab aktuellen Versionen.

Schritt 3: V4-Flash mit vLLM bereitstellen

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

Flags:

  • --tensor-parallel-size 2: Modell auf 2 H100s verteilen. Mehr Karten = höhere Zahl.
  • --max-model-len 1048576: Volles 1M-Token-Kontextfenster. Für weniger Kontext (und mehr VRAM) z.B. 131072.
  • --enable-prefix-caching: Lokale Cache-Hit-Preise wie bei der gehosteten API.
  • --dtype auto: Nutzt FP8-Mischpräzision.

Nach dem Start ist der Server OpenAI-kompatibel unter http://localhost:8000/v1.

Schritt 4: V4-Pro mit vLLM bereitstellen

Cluster erforderlich. Befehlsstruktur:

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

Hier ist der Kontext auf 512K reduziert, damit das Modell in eine 16-H100-Box passt. Pipeline- und Tensor-Parallelität ermöglichen knotenübergreifenden Betrieb.

Schritt 5: Mit SGLang bereitstellen (Alternative für Tool-Nutzung)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000
Enter fullscreen mode Exit fullscreen mode

SGLang stellt eine OpenAI-kompatible API unter http://localhost:30000/v1 bereit. Die lang-DSL bietet bessere Funktionsaufruf- und JSON-Ausgabe-Primitives als vLLM.

Schritt 6: Für eine Single-GPU-Box quantisieren

INT4-Quantisierung ermöglicht V4-Flash auf einer 80-GB-Karte mit geringem Qualitätsverlust.

AWQ (empfohlen)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
Enter fullscreen mode Exit fullscreen mode

GPTQ

pip install auto-gptq
# Folge dem GPTQ-Quantisierungs-Recipe; ähnlich wie bei AWQ.
Enter fullscreen mode Exit fullscreen mode

Starte den quantisierten Checkpoint mit vLLM via --quantization awq oder --quantization gptq.

Schritt 7: Mit Apidog testen

Schicke keinen Produktionsverkehr an einen neuen lokalen Server – validiere ihn zuerst.

Apidog Test

  1. Apidog herunterladen.
  2. Neue Sammlung mit http://localhost:8000/v1/chat/completions als Ziel anlegen.
  3. Den gleichen Test-Prompt wie bei der gehosteten API nutzen. Ergebnisse vergleichen.
  4. Einen 500K-Token-Kontexttest durchführen, um den KV-Cache zu prüfen.
  5. Einen Tool-Calling-Workflow komplett durchtesten, bevor weitere Systeme angebunden werden.

Die gleiche Sammlung, die du für die gehostete DeepSeek V4 API nutzt, funktioniert lokal durch simples Ändern der Basis-URL – OpenAI-Kompatibilität macht’s möglich.

Beobachtbarkeit und Überwachung

Diese vier Metriken solltest du von Anfang an tracken:

  1. Tokens pro Sekunde: Prompt & Generierung (vLLM bietet /metrics im Prometheus-Format).
  2. GPU-Auslastung: Mit nvidia-smi oder DCGM. < 70 % Auslastung deutet auf zu kleine Batch-Größe hin.
  3. KV-Cache-Trefferrate: Mit --enable-prefix-caching sichtbar; sinkende Rate = weniger Durchsatz.
  4. Anforderungslatenz p50/p95/p99: Mit Tracing; hoher p99 bei stabilem p50 = einzelne Requests blockieren die Queue.

Alle Metriken sollten an Grafana oder euren Observability-Stack weitergeleitet werden.

Feinabstimmung von V4 Basis-Checkpoints

Basis-Checkpoints sind für weiteres Vortraining und SFT gedacht. Standard-Pipeline:

pip install "torch>=2.6" transformers accelerate peft trl

# Standard SFT mit LoRA auf V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128
Enter fullscreen mode Exit fullscreen mode

Die vollständige Feinabstimmung von V4-Pro ist eine Großaufgabe. Für die meisten Teams sind LoRA-Adapter auf V4-Flash-Base der realistische Weg: viel Qualitätsgewinn, wenig Aufwand.

Häufige Fallstricke

  1. OOM beim Start: Meist ist --max-model-len zu hoch oder --tensor-parallel-size zu niedrig. Kontext halbieren oder Parallelität erhöhen.
  2. Langsamer erster Request: vLLM kompiliert Kernel lazy – erster Aufruf pro Form dauert immer. Mit Dummy-Request vorwärmen.
  3. Fehler beim Parsen der Tool-Nutzung: DeepSeek-Kodierung unterscheidet sich leicht von OpenAI. Nutze ein SDK, das V4 explizit unterstützt.
  4. FP8-Fehler auf älteren Karten: A100s unterstützen FP8 nicht. BF16 verwenden und mit doppeltem VRAM rechnen.

Wann sich das Selbst-Hosting lohnt

Break-Even-Berechnung (siehe Preise der gehosteten DeepSeek V4 API):

  • V4-Flash bei 200 Mrd. Eingabe + 20 Mrd. Ausgabe/Monat: ~33,6 Tsd. $ (gehostet) vs. ~20 Tsd. $/Monat (8 × H100 gemietet) → Selbst-Hosting spart ~40 %.
  • V4-Pro bei 500 Mrd. Eingabe + 50 Mrd. Ausgabe/Monat: ~1,04 Mio. $ (gehostet) vs. ~35 Tsd. $/Monat (16 × H100 Cluster) → Selbst-Hosting spart >95 %.

Break-Even für V4-Flash ab ca. 100 Mrd. Tokens/Monat. Darunter lohnt sich gehostet eher.

FAQ

Kann ich V4-Flash auf einer einzelnen A100 ausführen?

Mit starker Quantisierung und reduziertem Kontext – ja, aber langsam. INT4 auf 80-GB-A100: 5–15 Tokens/s. H100 ist optimal.

Unterstützt V4 LoRA-Feinabstimmung?

Ja. Nutze Basis-Checkpoints und Standard-TRL- oder Axolotl-Pipelines. MoE-Routing beeinflusst LoRA nicht.

Ist der lokale Server OpenAI-kompatibel?

Ja. vLLM & SGLang exposen /v1/chat/completions und /v1/completions nach OpenAI-Format. Der API-Leitfaden funktioniert auch mit localhost.

Wie aktiviere ich den Denkmodus lokal?

Im Request-Body thinking_mode: "thinking" oder "thinking_max" übergeben. vLLM und SGLang reichen das Flag ans Modell weiter.

Kann ich von einem lokalen V4-Server streamen?

Ja. Setze stream: true wie bei OpenAI oder gehosteter DeepSeek API.

Was ist der günstigste Weg zum Testen vor Hardware-Kauf?

Miete eine einzelne H100 bei RunPod oder Lambda, führe V4-Flash mit INT4 aus und miss den Durchsatz mit echten Prompts. Für 10–30 $ bekommst du echte Hardwaredaten – schneller als jede Planung.

Top comments (0)