Thanawat Wongchai

Posted on Apr 24 • Originally published at apidog.com

วิธีรัน DeepSeek V4 ในเครื่องตัวเอง

DeepSeek V4 เปิดตัวเมื่อวันที่ 23 เมษายน 2026 พร้อมน้ำหนักโมเดลแบบ MIT License บน Hugging Face การเลือกใช้ใบอนุญาตเดียวนี้เปลี่ยนโอกาสสำหรับทุกทีมที่ต้องการ AI ระดับแนวหน้าบนฮาร์ดแวร์ของตัวเอง V4-Flash (284 พันล้านพารามิเตอร์, 13 พันล้านพารามิเตอร์ที่ทำงานอยู่) สามารถรันบน H100 สองตัว (FP8) หรือการ์ดเดียว (INT4) V4-Pro (1.6 ล้านล้านพารามิเตอร์, 49 พันล้านพารามิเตอร์ที่ทำงานอยู่) ต้องการคลัสเตอร์ แต่ประสิทธิภาพเทียบชั้น GPT-5.5 และ Claude Opus 4.6 ในงานโค้ดและ reasoning

ลองใช้ Apidog วันนี้

คู่มือนี้สรุปขั้นตอนติดตั้งใช้งาน DeepSeek V4 แบบ local-deployment: ข้อกำหนดฮาร์ดแวร์, ควอนไทซ์, vLLM/SGLang, การตั้งค่าและทดสอบกับ Apidog ก่อนนำไปใช้งานจริง

สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร วิธีใช้งาน API แบบโฮสต์ ดู วิธีใช้ DeepSeek V4 API เปรียบเทียบต้นทุน ดู ราคา DeepSeek V4 API

สรุปโดยย่อ

V4-Flash: ทำงานบน 2 × H100 80GB (FP8) หรือ 1 × H100 (INT4); น้ำหนักโมเดล ~500GB (FP8)
V4-Pro: ต้องการ H100 16 ตัวขึ้นไป (FP8) สำหรับ production workload
vLLM: วิธีที่เร็วที่สุดในการตั้งเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI (vllm>=0.9.0 รองรับ V4)
SGLang: สำหรับงานที่ต้องใช้การเรียกฟังก์ชัน/structured output
ควอนไทซ์: ใช้ AWQ INT4 หรือ GPTQ INT4 เพื่อรัน V4-Flash บนการ์ด 80GB เดียว (คุณภาพ drop ~5%)
ใช้ Apidog ชี้ไปที่ http://localhost:8000/v1 ใช้คอลเลกชันเดิมจาก Hosted API ได้ทันที

ใครควรโฮสต์ด้วยตัวเอง

การโฮสต์ V4 ด้วยตัวเองเหมาะกับทีมเหล่านี้:

ข้อจำกัดด้าน compliance: งานสุขภาพ, การเงิน, กฎหมาย, รัฐ ที่ข้อมูลห้ามออกนอกระบบ MIT License ลดข้อจำกัดด้าน legal/data residency
workload ขนาดใหญ่เสถียร: ถ้าใช้งานระดับ 200B+ โทเค็น/เดือน self-host คุ้มกว่าจ่าย per-token
Fine-tuning/วิจัย: เช็คพอยต์ Base พร้อมสำหรับต่อยอด, MIT License รองรับ commercial derivative

ไม่ควรโฮสต์เอง: ทีม prototype, ไม่มีประสบการณ์ GPU, หรือ workload ต่ำกว่า 200 USD/เดือน – ค่า infra จะสูงกว่าที่ประหยัดได้

ข้อกำหนดด้านฮาร์ดแวร์

DeepSeek V4 ใช้ FP4+FP8 native precision ประหยัดหน่วยความจำ:

รูปแบบ	พารามิเตอร์ทั้งหมด	พารามิเตอร์ที่ทำงาน	VRAM (FP8)	VRAM (INT4)	การ์ดขั้นต่ำ
V4-Flash	284B	13B	~500GB	~140GB	2 × H100 80GB (FP8) / 1 × H100 (INT4)
V4-Pro	1.6T	49B	~2.4TB	~700GB	16 × H100 80GB (FP8) / 8 × H100 (INT4)

หมายเหตุ

ต้องมี VRAM สำหรับ MoE "ทุก expert" ไม่ใช่แค่ active
H200, MI300X ใช้แทน H100 ได้ (VRAM per card สูงกว่า)
GPU consumer (RTX 5090) ไม่พอ แม้แต่ V4-Flash INT4
Apple Silicon (M3/M4 Max 128GB) รันได้แต่ช้ามาก เหมาะ dev/test เท่านั้น

ขั้นตอนที่ 1: ดาวน์โหลดน้ำหนักโมเดล

แหล่งอย่างเป็นทางการ:

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
deepseek-ai/DeepSeek-V4-Flash-Base, DeepSeek-V4-Pro-Base สำหรับ Fine-tuning

ติดตั้ง CLI และดาวน์โหลด:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

สำรอง disk ~500GB (V4-Flash) หรือหลายเทรา (V4-Pro)
สำหรับ users จีน: modelscope.cn โหลดเร็วขึ้น

ขั้นตอนที่ 2: เลือกเอนจินสำหรับให้บริการ

เลือก 1 ใน 2:

vLLM: throughput สูงสุด, compatible กับ OpenAI, community ใหญ่
SGLang: ฟีเจอร์ tool-calling, structured output, long context

ทั้งสองรองรับ DeepSeek V4 (อัพเดทล่าสุด)

ขั้นตอนที่ 3: ให้บริการ V4-Flash ด้วย vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

แฟล็กหลัก:

--tensor-parallel-size: จำนวน H100 ที่ใช้
--max-model-len: context window (1M โทเค็น, ลดเหลือ 131072 เพื่อประหยัด VRAM)
--enable-prefix-caching: cache prompt prefix
--dtype auto: รองรับ FP8 mix

เซิร์ฟเวอร์พร้อมใช้งานผ่าน OpenAI-compatible client ที่ http://localhost:8000/v1

ขั้นตอนที่ 4: ให้บริการ V4-Pro ด้วย vLLM

V4-Pro ต้องการคลัสเตอร์ (multi-node):

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

context 512K โทเค็น (เพิ่มได้ถ้า VRAM เหลือ)
pipeline/tensor parallelism สำหรับ multi-node

ขั้นตอนที่ 5: ให้บริการด้วย SGLang (tool-calling)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

endpoint ที่ http://localhost:30000/v1
DSL lang ของ SGLang เหมาะสำหรับ function call/json mode

ขั้นตอนที่ 6: ควอนไทซ์สำหรับการ์ด GPU เดียว

INT4 quantization ทำให้รันบน H100 (80GB) เดียวได้

AWQ (แนะนำ)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# ทำตาม pattern คล้าย AWQ

ให้บริการโมเดลควอนไทซ์ผ่าน vLLM:

เพิ่ม --quantization awq หรือ --quantization gptq ตอนรัน vLLM

ขั้นตอนที่ 7: ทดสอบด้วย Apidog

อย่าส่ง traffic production ก่อนทดสอบ server ภายใน

ดาวน์โหลด Apidog
สร้าง collection ชี้ที่ http://localhost:8000/v1/chat/completions
วาง prompt test เดียวกับ Hosted API, เปรียบเทียบผล side-by-side
ทดสอบ context 500K token เพื่อตรวจสอบ KV Cache
ทดสอบ flow tool-calling end-to-end ก่อนเชื่อมต่อ agent loop

Collection เดิมที่ใช้กับ DeepSeek V4 API แบบโฮสต์ ใช้กับ local server ได้ทันที เปลี่ยน base-url อย่างเดียว

การตรวจสอบและการเฝ้าระวัง

ติดตาม 4 metric นี้ตั้งแต่เริ่ม:

โทเค็นต่อวินาที: vLLM มี Prometheus /metrics
GPU Utilization: ใช้ nvidia-smi หรือ DCGM ถ้าต่ำกว่า 70% ปรับ batch size
KV Cache Hit Rate: เปิด --enable-prefix-caching แล้วดูอัตรา cache hit
Request latency (p50/p95/p99): trace มาตรฐาน; p99 สูงแปลว่าบาง request pattern ทำให้คิวช้า

ส่ง metric เหล่านี้ไป Grafana หรือ observability ที่ใช้งานอยู่

การ Fine-tuning เช็คพอยต์ V4 Base

Base checkpoint สำหรับ pretrain/sft:

pip install "torch>=2.6" transformers accelerate peft trl

# ตัวอย่าง SFT + LoRA
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Full-parameter finetune บน V4-Pro = งานวิจัยหนัก
LoRA adapters บน V4-Flash-Base = practical สำหรับทีมส่วนใหญ่

ข้อผิดพลาดที่พบบ่อย

OOM ตอน start: --max-model-len สูงเกิน/--tensor-parallel-size ต่ำเกิน แก้โดยลด context หรือเพิ่ม parallelism
Request แรกช้า: vLLM lazy kernel compile; warmup ด้วย dummy request
tool-call parsing error: DeepSeek encoding ไม่เหมือน OpenAI 100% ใช้ SDK ที่รองรับ V4 โดยตรง
FP8 error บนการ์ดเก่า: A100 ไม่รองรับ FP8 ใช้ BF16 แทน (VRAM เพิ่ม 2x)

เมื่อไหร่ควร self-host

อ้างอิง ราคา DeepSeek V4 แบบโฮสต์:

V4-Flash: 200B input + 20B output token/เดือน: Hosted API ~$33,600, เช่า 8 × H100 ~$20,000 (ประหยัด ~40%)
V4-Pro: 500B input + 50B output/เดือน: Hosted API ~$1.04M, คลัสเตอร์ 16 × H100 ~$35,000 (ประหยัด 95%+)

จุดคุ้มทุน V4-Flash ~100B token/เดือน ต่ำกว่านี้ Hosted API ถูกกว่า

คำถามที่พบบ่อย

V4-Flash รันบน A100 เดียวได้ไหม? ได้ (INT4+context สั้น), แต่ throughput 5-15 tps, H100 เหมาะกว่า
V4 รองรับ LoRA finetune? รองรับ ใช้ checkpoint base + TRL/Axolotl workflow
Local server compatible กับ OpenAI ไหม? ใช่ ทั้ง vLLM/SGLang เปิด /v1/chat/completions และ /v1/completions format เดียวกับ OpenAI (คู่มือ Hosted API)
เปิด Thinking Mode ยังไง? ส่ง thinking_mode: "thinking" หรือ "thinking_max" ใน body
สตรีมจาก local V4 server ได้ไหม? ได้ ส่ง stream: true
ทดลองก่อนซื้อ hardware ทำยังไงถูกสุด? เช่า H100 บน RunPod/Lambda ชั่วคราว รัน V4-Flash INT4 วัด throughput จริง

DEV Community