DeepSeek V4 เปิดตัวเมื่อวันที่ 23 เมษายน 2026 พร้อมน้ำหนักโมเดลแบบ MIT License บน Hugging Face การเลือกใช้ใบอนุญาตเดียวนี้เปลี่ยนโอกาสสำหรับทุกทีมที่ต้องการ AI ระดับแนวหน้าบนฮาร์ดแวร์ของตัวเอง V4-Flash (284 พันล้านพารามิเตอร์, 13 พันล้านพารามิเตอร์ที่ทำงานอยู่) สามารถรันบน H100 สองตัว (FP8) หรือการ์ดเดียว (INT4) V4-Pro (1.6 ล้านล้านพารามิเตอร์, 49 พันล้านพารามิเตอร์ที่ทำงานอยู่) ต้องการคลัสเตอร์ แต่ประสิทธิภาพเทียบชั้น GPT-5.5 และ Claude Opus 4.6 ในงานโค้ดและ reasoning
คู่มือนี้สรุปขั้นตอนติดตั้งใช้งาน DeepSeek V4 แบบ local-deployment: ข้อกำหนดฮาร์ดแวร์, ควอนไทซ์, vLLM/SGLang, การตั้งค่าและทดสอบกับ Apidog ก่อนนำไปใช้งานจริง
สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร วิธีใช้งาน API แบบโฮสต์ ดู วิธีใช้ DeepSeek V4 API เปรียบเทียบต้นทุน ดู ราคา DeepSeek V4 API
สรุปโดยย่อ
- V4-Flash: ทำงานบน 2 × H100 80GB (FP8) หรือ 1 × H100 (INT4); น้ำหนักโมเดล ~500GB (FP8)
- V4-Pro: ต้องการ H100 16 ตัวขึ้นไป (FP8) สำหรับ production workload
-
vLLM: วิธีที่เร็วที่สุดในการตั้งเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI (
vllm>=0.9.0รองรับ V4) - SGLang: สำหรับงานที่ต้องใช้การเรียกฟังก์ชัน/structured output
- ควอนไทซ์: ใช้ AWQ INT4 หรือ GPTQ INT4 เพื่อรัน V4-Flash บนการ์ด 80GB เดียว (คุณภาพ drop ~5%)
- ใช้ Apidog ชี้ไปที่
http://localhost:8000/v1ใช้คอลเลกชันเดิมจาก Hosted API ได้ทันที
ใครควรโฮสต์ด้วยตัวเอง
การโฮสต์ V4 ด้วยตัวเองเหมาะกับทีมเหล่านี้:
- ข้อจำกัดด้าน compliance: งานสุขภาพ, การเงิน, กฎหมาย, รัฐ ที่ข้อมูลห้ามออกนอกระบบ MIT License ลดข้อจำกัดด้าน legal/data residency
- workload ขนาดใหญ่เสถียร: ถ้าใช้งานระดับ 200B+ โทเค็น/เดือน self-host คุ้มกว่าจ่าย per-token
- Fine-tuning/วิจัย: เช็คพอยต์ Base พร้อมสำหรับต่อยอด, MIT License รองรับ commercial derivative
ไม่ควรโฮสต์เอง: ทีม prototype, ไม่มีประสบการณ์ GPU, หรือ workload ต่ำกว่า 200 USD/เดือน – ค่า infra จะสูงกว่าที่ประหยัดได้
ข้อกำหนดด้านฮาร์ดแวร์
DeepSeek V4 ใช้ FP4+FP8 native precision ประหยัดหน่วยความจำ:
| รูปแบบ | พารามิเตอร์ทั้งหมด | พารามิเตอร์ที่ทำงาน | VRAM (FP8) | VRAM (INT4) | การ์ดขั้นต่ำ |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) / 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) / 8 × H100 (INT4) |
หมายเหตุ
- ต้องมี VRAM สำหรับ MoE "ทุก expert" ไม่ใช่แค่ active
- H200, MI300X ใช้แทน H100 ได้ (VRAM per card สูงกว่า)
- GPU consumer (RTX 5090) ไม่พอ แม้แต่ V4-Flash INT4
- Apple Silicon (M3/M4 Max 128GB) รันได้แต่ช้ามาก เหมาะ dev/test เท่านั้น
ขั้นตอนที่ 1: ดาวน์โหลดน้ำหนักโมเดล
แหล่งอย่างเป็นทางการ:
- deepseek-ai/DeepSeek-V4-Flash
- deepseek-ai/DeepSeek-V4-Pro
-
deepseek-ai/DeepSeek-V4-Flash-Base,DeepSeek-V4-Pro-Baseสำหรับ Fine-tuning
ติดตั้ง CLI และดาวน์โหลด:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
- สำรอง disk ~500GB (V4-Flash) หรือหลายเทรา (V4-Pro)
- สำหรับ users จีน: modelscope.cn โหลดเร็วขึ้น
ขั้นตอนที่ 2: เลือกเอนจินสำหรับให้บริการ
เลือก 1 ใน 2:
- vLLM: throughput สูงสุด, compatible กับ OpenAI, community ใหญ่
- SGLang: ฟีเจอร์ tool-calling, structured output, long context
ทั้งสองรองรับ DeepSeek V4 (อัพเดทล่าสุด)
ขั้นตอนที่ 3: ให้บริการ V4-Flash ด้วย vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
แฟล็กหลัก:
-
--tensor-parallel-size: จำนวน H100 ที่ใช้ -
--max-model-len: context window (1M โทเค็น, ลดเหลือ 131072 เพื่อประหยัด VRAM) -
--enable-prefix-caching: cache prompt prefix -
--dtype auto: รองรับ FP8 mix
เซิร์ฟเวอร์พร้อมใช้งานผ่าน OpenAI-compatible client ที่ http://localhost:8000/v1
ขั้นตอนที่ 4: ให้บริการ V4-Pro ด้วย vLLM
V4-Pro ต้องการคลัสเตอร์ (multi-node):
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
- context 512K โทเค็น (เพิ่มได้ถ้า VRAM เหลือ)
- pipeline/tensor parallelism สำหรับ multi-node
ขั้นตอนที่ 5: ให้บริการด้วย SGLang (tool-calling)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
- endpoint ที่
http://localhost:30000/v1 - DSL
langของ SGLang เหมาะสำหรับ function call/json mode
ขั้นตอนที่ 6: ควอนไทซ์สำหรับการ์ด GPU เดียว
INT4 quantization ทำให้รันบน H100 (80GB) เดียวได้
AWQ (แนะนำ)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# ทำตาม pattern คล้าย AWQ
ให้บริการโมเดลควอนไทซ์ผ่าน vLLM:
เพิ่ม --quantization awq หรือ --quantization gptq ตอนรัน vLLM
ขั้นตอนที่ 7: ทดสอบด้วย Apidog
อย่าส่ง traffic production ก่อนทดสอบ server ภายใน
- ดาวน์โหลด Apidog
- สร้าง collection ชี้ที่
http://localhost:8000/v1/chat/completions - วาง prompt test เดียวกับ Hosted API, เปรียบเทียบผล side-by-side
- ทดสอบ context 500K token เพื่อตรวจสอบ KV Cache
- ทดสอบ flow tool-calling end-to-end ก่อนเชื่อมต่อ agent loop
Collection เดิมที่ใช้กับ DeepSeek V4 API แบบโฮสต์ ใช้กับ local server ได้ทันที เปลี่ยน base-url อย่างเดียว
การตรวจสอบและการเฝ้าระวัง
ติดตาม 4 metric นี้ตั้งแต่เริ่ม:
-
โทเค็นต่อวินาที: vLLM มี Prometheus
/metrics -
GPU Utilization: ใช้
nvidia-smiหรือ DCGM ถ้าต่ำกว่า 70% ปรับ batch size -
KV Cache Hit Rate: เปิด
--enable-prefix-cachingแล้วดูอัตรา cache hit - Request latency (p50/p95/p99): trace มาตรฐาน; p99 สูงแปลว่าบาง request pattern ทำให้คิวช้า
ส่ง metric เหล่านี้ไป Grafana หรือ observability ที่ใช้งานอยู่
การ Fine-tuning เช็คพอยต์ V4 Base
Base checkpoint สำหรับ pretrain/sft:
pip install "torch>=2.6" transformers accelerate peft trl
# ตัวอย่าง SFT + LoRA
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
- Full-parameter finetune บน V4-Pro = งานวิจัยหนัก
- LoRA adapters บน V4-Flash-Base = practical สำหรับทีมส่วนใหญ่
ข้อผิดพลาดที่พบบ่อย
-
OOM ตอน start:
--max-model-lenสูงเกิน/--tensor-parallel-sizeต่ำเกิน แก้โดยลด context หรือเพิ่ม parallelism - Request แรกช้า: vLLM lazy kernel compile; warmup ด้วย dummy request
- tool-call parsing error: DeepSeek encoding ไม่เหมือน OpenAI 100% ใช้ SDK ที่รองรับ V4 โดยตรง
- FP8 error บนการ์ดเก่า: A100 ไม่รองรับ FP8 ใช้ BF16 แทน (VRAM เพิ่ม 2x)
เมื่อไหร่ควร self-host
อ้างอิง ราคา DeepSeek V4 แบบโฮสต์:
- V4-Flash: 200B input + 20B output token/เดือน: Hosted API ~$33,600, เช่า 8 × H100 ~$20,000 (ประหยัด ~40%)
- V4-Pro: 500B input + 50B output/เดือน: Hosted API ~$1.04M, คลัสเตอร์ 16 × H100 ~$35,000 (ประหยัด 95%+)
จุดคุ้มทุน V4-Flash ~100B token/เดือน ต่ำกว่านี้ Hosted API ถูกกว่า
คำถามที่พบบ่อย
- V4-Flash รันบน A100 เดียวได้ไหม? ได้ (INT4+context สั้น), แต่ throughput 5-15 tps, H100 เหมาะกว่า
- V4 รองรับ LoRA finetune? รองรับ ใช้ checkpoint base + TRL/Axolotl workflow
-
Local server compatible กับ OpenAI ไหม? ใช่ ทั้ง vLLM/SGLang เปิด
/v1/chat/completionsและ/v1/completionsformat เดียวกับ OpenAI (คู่มือ Hosted API) -
เปิด Thinking Mode ยังไง? ส่ง
thinking_mode: "thinking"หรือ"thinking_max"ใน body -
สตรีมจาก local V4 server ได้ไหม? ได้ ส่ง
stream: true - ทดลองก่อนซื้อ hardware ทำยังไงถูกสุด? เช่า H100 บน RunPod/Lambda ชั่วคราว รัน V4-Flash INT4 วัด throughput จริง
Top comments (0)