Sebastian Petrus

Posted on Apr 24 • Originally published at apidog.com

Hướng Dẫn Chạy DeepSeek V4 Tại Nhà

DeepSeek V4 ra mắt ngày 23/4/2026 với trọng số (weights) MIT trên Hugging Face. Giấy phép mở này giúp mọi đội nhóm có thể triển khai AI mạnh mẽ trên hạ tầng riêng. V4-Flash (284B, 13B hoạt động) chạy trên 2 × H100 FP8; V4-Pro (1.6T, 49B hoạt động) cần cụm và cạnh tranh với GPT-5.5/Claude Opus 4.6 về code/suy luận. Bài này hướng dẫn từng bước triển khai cục bộ: chuẩn bị phần cứng, lượng tử hóa, thiết lập vLLM/SGLang, cấu hình sử dụng công cụ, và kiểm thử qua Apidog trước khi đưa vào sản xuất. Xem tổng quan sản phẩm tại DeepSeek V4 là gì, API hosted tại cách sử dụng API DeepSeek V4, so sánh giá tại giá API DeepSeek V4.

Hãy thử Apidog ngay hôm nay

TL;DR (Tóm tắt)

V4-Flash chạy trên 2 × H100 80GB (FP8), hoặc 1 × H100 (INT4). Trọng số ~500GB FP8.
V4-Pro cần 16+ H100 FP8 để đạt thông lượng sản xuất; không dành cho laptop.
vLLM là lựa chọn nhanh nhất cho server tương thích OpenAI. vllm>=0.9.0 hỗ trợ V4.
SGLang phù hợp nếu cần sử dụng công cụ, đầu ra cấu trúc tốt.
Lượng tử hóa AWQ INT4 hoặc GPTQ INT4 giúp V4-Flash chạy trên 1 card 80GB, giảm ~5% chất lượng.
Dùng Apidog trỏ vào http://localhost:8000/v1 để kiểm thử, dùng lại collection với API hosted.

Ai nên tự lưu trữ

Đội nhóm ràng buộc quy định: Y tế, tài chính, pháp lý, quốc phòng – dữ liệu không được rời mạng. MIT license, không thỏa thuận sử dụng, không có luồng dữ liệu qua biên giới.
Workload lớn, ổn định: API V4-Pro giá 1.74$/triệu token vào, 3.48$/triệu token ra. Nếu >200B token/tháng, tự mua phần cứng sẽ rẻ hơn.
Tinh chỉnh & nghiên cứu: Có checkpoint Base cho pretraining, SFT, MIT license cho phép phân phối lại bản tinh chỉnh thương mại.

Không nên tự lưu trữ: Prototyper, đội thiếu kinh nghiệm vận hành GPU, workload < 200$/tháng với API hosted. Chi phí vận hành sẽ vượt lợi ích ở quy mô nhỏ.

Yêu cầu phần cứng

DeepSeek V4: FP4 + FP8 mixed precision. Cần đủ VRAM cho tổng số experts (MoE), không chỉ active params.

Biến thể	Tổng tham số	Tham số hoạt động	VRAM FP8	VRAM INT4	Card tối thiểu
V4-Flash	284B	13B	~500GB	~140GB	2 × H100 80GB (FP8) hoặc 1 × H100 (INT4)
V4-Pro	1.6T	49B	~2.4TB	~700GB	16 × H100 80GB (FP8) hoặc 8 × H100 (INT4)

VRAM cần cho toàn bộ MoE, không chỉ active.
H200, MI300X thay thế tốt. Card 141GB/192GB giảm số card cần.
GPU consumer không chạy nổi. 24GB RTX không đủ, kể cả INT4.
Apple Silicon: M3/M4 Max 128GB unified memory chỉ phù hợp dev/test, tốc độ chậm.

Bước 1: Tải xuống trọng số (weights)

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
Dùng deepseek-ai/DeepSeek-V4-Flash-Base / DeepSeek-V4-Pro-Base để tinh chỉnh.

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Cần ~500GB ổ cho V4-Flash, vài TB cho V4-Pro. Nếu ở TQ, có thể dùng modelscope.cn để tải nhanh hơn.

Bước 2: Chọn serving engine

vLLM: Thông lượng cao, tương thích OpenAI, cộng đồng lớn. Nên dùng mặc định.
SGLang: Phù hợp workload dùng tool-calling, đầu ra JSON/primitives tốt hơn.

Cả hai đều hỗ trợ DeepSeek V4 (tuần phát hành V4).

Bước 3: Phục vụ V4-Flash với vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Chú thích:

--tensor-parallel-size 2: Chạy trên 2 H100. Tăng lên nếu nhiều card.
--max-model-len 1048576: Cửa sổ ngữ cảnh 1M-token. Giảm xuống nếu cần tiết kiệm VRAM.
--enable-prefix-caching: Tối ưu cache-hit, tăng throughput.
--dtype auto: Tự động FP8.

Sau khi chạy, client kiểu OpenAI trỏ http://localhost:8000/v1 là hoạt động.

Bước 4: Phục vụ V4-Pro với vLLM

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Chạy cụm 16 × H100 (8 tensor × 2 pipeline). Có thể tăng context nếu còn VRAM. Hình thức này phù hợp cluster đa node.

Bước 5: Phục vụ với SGLang (tool-calling)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang cho API OpenAI tại http://localhost:30000/v1. Có DSL lang cho tool-calling, đầu ra JSON tốt hơn vLLM.

Bước 6: Lượng tử hóa cho GPU đơn

INT4 giúp V4-Flash chạy 1 × 80GB, giảm chất lượng nhẹ. Hai lựa chọn:

AWQ (khuyến nghị)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Làm theo mẫu lượng tử hóa GPTQ, tương tự AWQ.

Phục vụ checkpoint lượng tử hóa bằng --quantization awq hoặc --quantization gptq khi chạy vLLM.

Bước 7: Kiểm thử với Apidog

Không đưa vào production ngay, cần kiểm thử qua Apidog:

Tải và cài đặt Apidog.
Tạo collection trỏ http://localhost:8000/v1/chat/completions.
Dán prompt test đã dùng với API hosted. So sánh phản hồi.
Test endpoint với context 500K-token để kiểm tra KV cache.
Chạy quy trình tool-calling end-to-end trước khi kết nối agent.

Collection bạn dùng với API hosted dùng lại được cho server cục bộ, chỉ cần đổi URL base.

Khả năng quan sát & giám sát

Token/s: Cả prompt và generate. vLLM: /metrics Prometheus.
GPU utilization: nvidia-smi hoặc DCGM. Dưới 70% nghĩa là batch chưa tối ưu.
KV cache-hit rate: --enable-prefix-caching giúp đo. Tỉ lệ hit giảm thì prompt đa dạng quá mức.
Request latency p50/p95/p99: Nếu p99 tăng, p50 ổn định => queue nghẽn do request shape.

Đẩy 4 metric này lên Grafana hoặc hệ thống monitoring của bạn.

Tinh chỉnh checkpoint V4 Base

Dùng checkpoint Base cho pretraining/SFT. Ví dụ SFT với LoRA:

pip install "torch>=2.6" transformers accelerate peft trl

python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Tinh chỉnh toàn bộ tham số V4-Pro là bài toán lớn. Với đội nhỏ, chỉ nên dùng LoRA trên V4-Flash-Base.

Lỗi thường gặp

OOM khi khởi động: --max-model-len cao quá, hoặc --tensor-parallel-size thấp. Giảm context/batch hoặc tăng song song.
Request đầu chậm: vLLM compile kernel lần đầu. Gửi request dummy để khởi động.
Lỗi tool-calling: DeepSeek encoding hơi khác OpenAI. Dùng SDK support V4 rõ ràng.
Lỗi FP8 trên card cũ: A100 không hỗ trợ FP8. Chạy BF16 (tốn gấp đôi VRAM).

Khi nào nên tự lưu trữ?

V4-Flash, 200B token vào/tháng + 20B ra: ~33.6K$ API hosted vs ~20K$/tháng thuê 8 × H100. Tự lưu trữ rẻ hơn ~40%.
V4-Pro, 500B in + 50B out/tháng: ~1.04M$ API hosted vs ~35K$/tháng thuê 16 × H100. Tiết kiệm >95%.

Break-even V4-Flash khoảng 100B token/tháng. Dưới mức này nên dùng API hosted.

Câu hỏi thường gặp

Chạy V4-Flash trên A100 đơn được không? Có, nếu lượng tử hóa nặng + context ngắn. INT4 trên A100 80GB chạy 5-15 token/s. Tốt nhất vẫn là H100.

Hỗ trợ LoRA? Có. Dùng checkpoint Base + pipeline TRL/Axolotl.

Server cục bộ tương thích OpenAI không? Có. vLLM, SGLang đều có /v1/chat/completions, /v1/completions. Hướng dẫn API hosted dùng được cho local.

Bật thinking mode thế nào? Truyền thinking_mode: "thinking" hoặc "thinking_max" vào request body. vLLM/SGLang đều hỗ trợ.

Stream từ server cục bộ được không? Được. Đặt stream: true như API OpenAI/DeepSeek hosted.

Cách thử nhanh/hợp lý trước khi mua phần cứng? Thuê H100 trên RunPod/Lambda vài giờ, chạy V4-Flash INT4, đo throughput với prompt thực tế. Test 10-30$ giúp quyết định nhanh hơn lên kế hoạch 1 tuần.

DEV Community