Walse

Posted on Apr 24 • Originally published at apidog.com

Cara Menjalankan DeepSeek V4 Secara Lokal

DeepSeek V4 dirilis pada 23 April 2026 dengan bobot berlisensi MIT di Hugging Face. Pilihan lisensi tunggal ini sangat menguntungkan tim yang ingin menjalankan AI canggih di perangkat keras sendiri. V4-Flash (total 284B, aktif 13B) bisa berjalan di sepasang H100 pada FP8. V4-Pro (total 1.6T, aktif 49B) butuh klaster, namun performanya kompetitif dengan GPT-5.5 dan Claude Opus 4.6 dalam kode dan penalaran.

Coba Apidog hari ini

Panduan ini fokus pada penerapan lokal DeepSeek V4. Anda akan belajar persyaratan hardware, opsi kuantisasi, setup vLLM dan SGLang, konfigurasi alat, serta workflow pengujian di Apidog untuk validasi server sebelum digunakan secara produksi.

Untuk gambaran umum produk, lihat apa itu DeepSeek V4. Untuk jalur API yang dihosting, lihat cara menggunakan DeepSeek V4 API. Untuk perbandingan biaya, lihat harga DeepSeek V4 API.

TL;DR

V4-Flash berjalan pada 2 × H100 80GB di FP8, atau 1 × H100 di INT4. Bobot sekitar ~500GB di FP8.
V4-Pro membutuhkan 16+ H100 di FP8 untuk throughput produksi; bukan model laptop.
vLLM adalah cara tercepat ke server kompatibel OpenAI. vllm>=0.9.0 sudah support V4.
SGLang alternatif untuk kebutuhan penggunaan alat & output terstruktur.
Kuantisasi AWQ INT4 atau GPTQ INT4 memungkinkan V4-Flash jalan di 1 kartu 80GB, kualitas turun ~5%.
Gunakan Apidog untuk mengarah ke http://localhost:8000/v1 dan reuse koleksi API hosted.

Siapa yang Harus Self-Hosting

Self-hosting V4 cocok untuk:

Tim terikat kepatuhan: Data tetap lokal, lisensi MIT tanpa perjanjian khusus.
Beban kerja besar & stabil: Di atas 200 miliar token/bulan, self-hosting lebih ekonomis.
Fine-tuning & riset: Checkpoint dasar siap untuk pretraining lanjutan dan adaptasi domain.

Tidak disarankan untuk: prototipe, tim tanpa pengalaman operasional GPU, workload kecil (API hosted < $200/bulan).

Persyaratan Hardware

DeepSeek V4 native di mixed precision FP4 + FP8, sehingga requirement memori lebih efisien.

Varian	Total parameter	Parameter aktif	VRAM FP8	VRAM INT4	Kartu minimum
V4-Flash	284B	13B	~500GB	~140GB	2 × H100 80GB (FP8) / 1 × H100 INT4
V4-Pro	1.6T	49B	~2.4TB	~700GB	16 × H100 80GB (FP8) / 8 × H100 INT4

Catatan:

Memori MoE: VRAM harus muat semua pakar, bukan hanya yang aktif per token.
H200/MI300X: Dengan 141GB/192GB, butuh lebih sedikit kartu.
GPU Konsumer: Tidak cukup, bahkan untuk V4-Flash INT4 di RTX 5090 24GB.
Apple Silicon: Bisa dengan M3 Max/M4 Max 128GB, tapi lambat.

Langkah 1: Unduh Bobot

Repo resmi:

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
Untuk fine-tuning: deepseek-ai/DeepSeek-V4-Flash-Base & DeepSeek-V4-Pro-Base

Unduh bobot:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Sediakan ~500GB disk untuk V4-Flash, beberapa TB untuk V4-Pro. Pengguna di Tiongkok: ModelScope biasanya lebih cepat.

Langkah 2: Pilih Mesin Penyaji

vLLM: Throughput tertinggi, API sangat kompatibel OpenAI. Pilihan default.
SGLang: Dukungan penggunaan alat & output terstruktur lebih baik, konteks panjang lebih baik. Pakai jika beban kerja banyak fungsi.

Keduanya sudah support V4 pada rilis terbaru.

Langkah 3: Sajikan V4-Flash dengan vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Penjelasan flag:

--tensor-parallel-size 2: Model dibagi di 2 H100. Sesuaikan sesuai jumlah GPU.
--max-model-len 1048576: 1 juta token. Turunkan ke 131072 jika butuh VRAM lebih lega.
--enable-prefix-caching: Mempercepat awalan prompt yang sama.
--dtype auto: Mengikuti presisi model.

Setelah server aktif, klien OpenAI compatible bisa gunakan endpoint http://localhost:8000/v1.

Langkah 4: Sajikan V4-Pro dengan vLLM

Butuh klaster, hanya paralelismenya yang berbeda:

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

--max-model-len 512K agar muat di 16 × H100. Bisa dinaikkan jika VRAM cukup. Kombinasi paralelisme pipeline dan tensor cocok deployment multi-node.

Langkah 5: Alternatif SGLang (Penggunaan Alat)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang expose endpoint OpenAI compatible di http://localhost:30000/v1. DSL lang-nya lebih baik untuk function-calling & output JSON.

Langkah 6: Kuantisasi untuk GPU Tunggal

INT4 memungkinkan V4-Flash jalan di H100 80GB dengan minimal penurunan kualitas. Ada dua opsi:

AWQ (Direkomendasikan)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Ikuti resep kuantisasi GPTQ; mirip dengan AWQ.

Saat serve, gunakan flag --quantization awq atau --quantization gptq di vLLM.

Langkah 7: Uji dengan Apidog

Jangan langsung gunakan server lokal untuk produksi. Validasi dulu.

Unduh Apidog.
Buat koleksi dengan base URL: http://localhost:8000/v1/chat/completions.
Tempel prompt uji yang sama seperti API hosting. Bandingkan hasilnya.
Tes endpoint dengan prompt 500K-token untuk check cache KV.
Jalankan workflow function-calling end-to-end sebelum masuk ke loop agen.

Koleksi yang sama untuk DeepSeek V4 API hosted bisa langsung dipakai di server lokal, hanya ganti base URL.

Observabilitas & Pemantauan

Pantau 4 metrik berikut sejak awal:

Token per detik: prompt & output. vLLM expose di /metrics format Prometheus.
Utilisasi GPU: nvidia-smi / DCGM. <70% berarti batch size kurang optimal.
Tingkat hit cache KV: Dengan --enable-prefix-caching, vLLM laporkan ini.
Latensi request p50/p95/p99: Pantau outlier; p99 naik, p50 stabil = bottleneck spesifik.

Kirim semua data ke Grafana atau sistem observabilitas andalan.

Fine-tuning Checkpoint Dasar V4

Checkpoint dasar untuk pretraining lanjutan & SFT. Pipeline:

pip install "torch>=2.6" transformers accelerate peft trl

# SFT Standar dengan LoRA pada V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Full fine-tuning di V4-Pro = tugas riset berat. LoRA adapter di V4-Flash-Base jauh lebih realistis untuk kebanyakan tim.

Kesalahan Umum

OOM saat startup: Biasanya --max-model-len terlalu tinggi atau --tensor-parallel-size terlalu kecil. Kurangi konteks atau tambah paralelisme.
Permintaan pertama lambat: vLLM compile kernel secara lazy. Hangatkan dengan dummy request.
Error penggunaan alat: Skema DeepSeek sedikit berbeda dari OpenAI. Pastikan SDK support V4.
Error FP8 di kartu lama: A100 tidak support FP8. Gunakan BF16 di arsitektur sebelum Hopper, VRAM akan naik ~2x.

Kapan Self-Hosting Menguntungkan

Break-even kasar, berdasarkan harga DeepSeek V4 hosted:

V4-Flash, 200B input + 20B output/bulan: ~$33.6K API hosted, sewa 8 × H100 ~$20K/bulan. Self-hosting lebih hemat ~40%.
V4-Pro, 500B input + 50B output/bulan: ~$1.04M API hosted, sewa 16 × H100 ~$35K/bulan. Self-hosting hemat >95%.

Break-even V4-Flash sekitar 100B token/bulan. Di bawah itu, API hosted lebih murah dan operasional lebih ringan.

FAQ

Bisakah V4-Flash jalan di A100 tunggal?

Bisa (INT4, konteks pendek), tapi lambat (5–15 tok/dtk). H100 jauh lebih ideal.

Apakah V4 support fine-tuning LoRA?

Ya. Pakai checkpoint dasar & pipeline TRL/Axolotl standar. MoE routing tidak mempengaruhi LoRA.

Server lokal kompatibel OpenAI?

Ya. vLLM & SGLang expose /v1/chat/completions & /v1/completions dengan request format OpenAI. Panduan API hosted bisa langsung dipakai ke localhost.

Bagaimana aktifkan mode thinking secara lokal?

Tambahkan thinking_mode: "thinking" atau "thinking_max" di body request. vLLM & SGLang meneruskan ke model.

Bisakah streaming dari server V4 lokal?

Bisa. Set stream: true seperti di OpenAI/DeepSeek API hosted.

Cara termurah eksperimen sebelum beli hardware?

Sewa 1 H100 di RunPod/Lambda beberapa jam, jalankan V4-Flash INT4, ukur throughput ke prompt nyata. Cukup $10–$30 untuk jawab kebutuhan hardware.

DEV Community