Tobias Hoffmann

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4'ü Yerel Olarak Nasıl Çalıştırılır?

DeepSeek V4, 23 Nisan 2026'da Hugging Face üzerinde MIT lisanslı ağırlıklarıyla yayınlandı. Bu lisans, kendi donanımında ileri seviye yapay zeka çalıştırmak isteyen ekipler için büyük bir avantaj. V4-Flash (284B toplam, 13B aktif parametre) FP8'de iki adet H100'e sığarken, V4-Pro (1.6T toplam, 49B aktif parametre) bir küme gerektiriyor ve kod/muhakeme konularında GPT-5.5 ve Claude Opus 4.6 ile rekabetçi şekilde çalışıyor.

Apidog'u bugün deneyin

Bu rehberde, DeepSeek V4'ü yerelde kurmak için donanım gereksinimlerinden başlayıp, niceleme (quantization) işlemlerine, vLLM ve SGLang kurulumlarına, araç entegrasyonu ve Apidog ile üretim öncesi doğrulamaya kadar tüm adımlar pratik bir şekilde ele alınmıştır.

Ürüne genel bakış için DeepSeek V4 nedir makalesine göz atın. Barındırılan API entegrasyonu için DeepSeek V4 API nasıl kullanılır. Maliyet analizi için DeepSeek V4 API fiyatlandırması.

TL;DR

V4-Flash, FP8'de 2 × H100 80GB veya INT4'te 1 × H100 üzerinde çalışır. FP8 ağırlıklar ~500GB.
V4-Pro, FP8 modunda üretim için 16+ H100 gerektirir.
vLLM, OpenAI uyumlu sunucu kurmanın en hızlı yoludur. vllm>=0.9.0 V4 desteğiyle gelir.
SGLang, araç kullanımı ve yapılandırılmış çıktı isteyen ekipler için alternatiftir.
AWQ INT4 veya GPTQ INT4 quantization, V4-Flash'i tek bir 80GB karta yaklaşık %5 kalite kaybıyla sığdırır.
http://localhost:8000/v1 adresine yönlendirme ve barındırılan API koleksiyonunu tekrar kullanmak için Apidog kullanabilirsiniz.

Kimler kendi kendine barındırmalı?

Aşağıdaki ekipler için self-hosting doğru tercihtir:

Uyumluluk gerektirenler: Sağlık, finans, hukuk, savunma gibi verinin dışarı çıkamayacağı alanlarda; MIT lisansı sayesinde veri kullanımı ve dağıtımında kısıtlama yoktur.
Büyük ve stabil iş yükleri: V4-Pro API fiyatları giriş başına 1.74 $/M, çıkış başına 3.48 $/M. Ayda 200 milyar jetonu aşan işlerde donanım ekonomisi avantajlıdır.
İnce ayar ve araştırma: Temel checkpointler sürekli ön eğitim ve alan adaptasyonu için uygundur; MIT lisansı ile türetilmiş modelleri ticari olarak kullanabilirsiniz.

Küçük prototipler, GPU yönetimi deneyimi olmayan ekipler ve aylık 200 dolar altında API kullananlar için self-hosting önerilmez.

Donanım Gereksinimleri

DeepSeek V4, FP4 + FP8 mixed precision ile daha verimli VRAM kullanır.

Varyant	Toplam parametre	Aktif parametre	FP8 VRAM	INT4 VRAM	Minimum kart
V4-Flash	284B	13B	~500GB	~140GB	2 × H100 80GB (FP8) veya 1 × H100 (INT4)
V4-Pro	1.6T	49B	~2.4TB	~700GB	16 × H100 80GB (FP8) veya 8 × H100 (INT4)

Notlar:

MoE belleği toplamdır, aktif olan değildir. Bellek hesabında tüm uzmanlar için VRAM gerekir, yalnızca aktif parametreler işlem maliyetini etkiler.
H200 ve MI300X alternatif olarak kullanılabilir.
Tüketici GPU'ları uygun değil; V4-Flash bile 24GB RTX 5090'da çalışmaz.
Apple Silicon (M3/M4 Max) sadece test/development için uygundur, prodüksiyon için değil.

Adım 1: Ağırlıkları İndirin

Resmi HuggingFace depoları:

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
İnce ayar için: deepseek-ai/DeepSeek-V4-Flash-Base ve DeepSeek-V4-Pro-Base

Kurulum ve indirme:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flash için ~500GB, V4-Pro için birkaç TB disk alanı ayırın. Çin içi için modelscope.cn hızlı bir alternatif.

Adım 2: Sunum Motoru Seçimi

İki ana seçenek:

vLLM: En geniş topluluk ve en iyi OpenAI uyumluluğu. Varsayılan öneri.
SGLang: Daha iyi araç kullanımı ve yapılandırılmış çıktı isteyenler için.

Her ikisi de V4'ü kutudan çıkar çıkmaz destekliyor.

Adım 3: V4-Flash'i vLLM ile Sunmak

Kurulum ve başlatma:

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Kritik parametreler:

--tensor-parallel-size 2: 2 H100 kullanır; daha fazla kart için artırılabilir.
--max-model-len 1048576: 1M tokenlık pencere; VRAM için düşürebilirsiniz.
--enable-prefix-caching: Tekrarlayan öneklerde hızlandırma sağlar.
--dtype auto: FP8 karma hassasiyeti için.

Açılan sunucu OpenAI uyumlu istemcilerle http://localhost:8000/v1 üzerinden kullanılabilir.

Adım 4: V4-Pro'yu vLLM ile Sunmak

V4-Pro için daha fazla paralellik gerekir:

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Bağlam uzunluğunu VRAM'e göre ayarlayın. Paralellik parametreleri küme/çoklu GPU için optimize edilmiştir.

Adım 5: SGLang ile Sunmak (Araç Kullanımı için Alternatif)

Kurulum ve sunucu başlatma:

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang, http://localhost:30000/v1 adresinde OpenAI uyumlu API sunar. Daha iyi fonksiyon çağrısı ve JSON çıktısı için lang DSL'si kullanılabilir.

Adım 6: Tek GPU’da Çalıştırmak için Niceleme

INT4 quantization ile V4-Flash, tek 80GB kartta küçük bir kalite kaybıyla çalışır.

AWQ (Önerilir)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# GPTQ quantization için AWQ ile benzer talimatları takip edebilirsiniz.

Niceleme sonrası vLLM ile başlatırken --quantization awq veya --quantization gptq parametresini ekleyin.

Adım 7: Apidog ile Test Etme

Üretim trafiği göndermeden önce yerel sunucunuzu Apidog ile test edin.

Apidog'u indirin.
http://localhost:8000/v1/chat/completions adresine yönlendirilmiş bir koleksiyon oluşturun.
Barındırılan API'ye gönderdiğiniz aynı test isteklerini kullanın, yanıtları karşılaştırın.
KV önbelleğini test etmek için 500K tokenlık uzun bir bağlam gönderin.
Araç çağırma akışını baştan sona test edin.

Barındırılan DeepSeek V4 API koleksiyonu temel URL değişikliğiyle lokal sunucuda aynen çalışır.

Gözlemlenebilirlik ve İzleme

Başlangıçtan itibaren şu metrikleri izleyin:

Saniye başına token (input/output): vLLM /metrics endpointinde Prometheus formatında sunar.
GPU kullanımı: nvidia-smi veya DCGM ile kontrol edin. <70% ise batch size'ı artırın.
KV cache isabet oranı: --enable-prefix-caching ile ölçülür, düşüş varsa promptlarda değişiklik olabilir.
İstek gecikmeleri (p50/p95/p99): Yüksek p99, darboğaz işareti olabilir.

Tüm metrikleri Grafana veya mevcut izleme altyapınıza entegre edin.

V4 Temel Checkpointlerde İnce Ayar

Checkpointler üzerinden SFT ve LoRA ile ince ayar yapmak için standart pipeline:

pip install "torch>=2.6" transformers accelerate peft trl

# V4-Flash-Base üzerinde LoRA ile SFT
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

V4-Pro üzerinde tam parametre ince ayarı büyük donanım gerektirir. Çoğu ekip için LoRA adaptörleri pratik bir çözümdür.

Yaygın Tuzaklar

Başlangıçta OOM: --max-model-len VRAM'i aşıyorsa veya --tensor-parallel-size düşükse; bağlamı azaltın veya paralelliği artırın.
Yavaş ilk istek: vLLM ilk istekte derleme yapar; test isteğiyle ısıtın.
Araç kullanımı hataları: DeepSeek kodlama şeması OpenAI'den farklı olabilir; uygun SDK sürümünü kullandığınızdan emin olun.
FP8 hataları (eski kartlar): A100 FP8 desteklemez; BF16 kullanın ve 2x VRAM bekleyin.

Kendi Kendine Barındırma Ne Zaman Kârlı?

Barındırılan DeepSeek V4 fiyatlandırması baz alınarak:

V4-Flash (ayda 200B giriş + 20B çıkış token): API'de ~33.6K$; 8 × H100 sunucu kirası ~20K$, self-hosted %40 avantajlı.
V4-Pro (ayda 500B giriş + 50B çıkış): API'de ~1.04M$; 16 × H100 cluster kirası ~35K$, self-hosted %95 avantajlı.

V4-Flash için başabaş noktası aylık ~100B token; bunun altında barındırılan API daha uygun.

SSS

V4-Flash'i tek bir A100'de çalıştırabilir miyim?

Yoğun quantization ve kısa bağlamda evet, ama yavaş olacaktır (INT4 ile A100 80GB'da 5-15 token/sn).

V4, LoRA ince ayarını destekliyor mu?

Evet, temel checkpointleri ile TRL veya Axolotl pipeline'larını kullanabilirsiniz.

Yerel sunucu OpenAI uyumlu mu?

Evet, vLLM ve SGLang /v1/chat/completions ve /v1/completions endpointleriyle uyumlu. Barındırılan API kılavuzu localhost'a doğrudan uygulanabilir.

Yerel olarak thinking mode nasıl etkinleştirilir?

İstek gövdesine thinking_mode: "thinking" veya "thinking_max" ekleyin.

Yerel V4 sunucusundan stream yapılabilir mi?

Evet, stream: true ile OpenAI API'sinde olduğu gibi kullanabilirsiniz.

Donanım satın almadan önce deneme yapmak için en ucuz yol nedir?

RunPod veya Lambda'dan saatlik H100 kiralayıp V4-Flash'i INT4 modunda deneyin; 10-30$'lık bir test ile hızlıca karar verebilirsiniz.

DEV Community