Sebastian Petrus

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4 Là Gì?

DeepSeek đã phát hành V4 vào ngày 23 tháng 4 năm 2026, và đây là một bản nâng cấp lớn. Phòng thí nghiệm Hàng Châu công bố đồng thời bốn checkpoint, dẫn đầu là DeepSeek-V4-Pro với 1,6 nghìn tỷ tham số, giấy phép MIT, và cửa sổ ngữ cảnh 1 triệu token. Phiên bản nhỏ hơn, DeepSeek-V4-Flash, có 284 tỷ tham số và ngữ cảnh tương tự. Các điểm chuẩn cho thấy Pro vượt Claude Opus 4.6 trên LiveCodeBench/Codeforces, xấp xỉ GPT-5.4 xHigh trên MMLU-Pro.

Dùng thử Apidog ngay hôm nay

Nếu bạn đang cân nhắc chuyển từ Claude, GPT-5.5 hoặc Qwen sang DeepSeek V4, bài viết này sẽ cung cấp tổng quan về mô hình, so sánh với V3.2, chi tiết kiến trúc, các điểm benchmark quan trọng và hướng dẫn thực tiễn triển khai.

Xem thêm hướng dẫn API DeepSeek V4, hướng dẫn truy cập miễn phí và hướng dẫn sử dụng DeepSeek V4. Định dạng request tương thích OpenAI, bạn có thể tạo collection trước trong Apidog mà không cần API key.

Tóm tắt

DeepSeek V4 là họ mô hình Mixture-of-Experts phát hành 23/4/2026, giấy phép MIT.
Ra mắt 4 checkpoint: V4-Pro, V4-Pro-Base, V4-Flash, V4-Flash-Base.
V4-Pro: 1,6T tham số, 49B hoạt động. V4-Flash: 284B, 13B hoạt động.
Cửa sổ ngữ cảnh 1M token, 3 chế độ suy luận: Non-Think, Think High, Think Max.
Benchmark nổi bật: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (Pro).
API tại api.deepseek.com, model ID: deepseek-v4-pro và deepseek-v4-flash; trọng số trên Hugging Face, ModelScope.

DeepSeek V4 là gì?

DeepSeek V4 kế nhiệm V3/V3.2 với kiến trúc Mixture-of-Experts (MoE) nâng cấp. V4-Pro chỉ kích hoạt 49B/1,6T tham số mỗi token, nên chi phí tính toán tương đương mô hình dense 50B. Tham khảo DeepSeek V4 trên Hugging Face.

Bốn checkpoint:

DeepSeek-V4-Pro: 1.6T, 49B hoạt động, ngữ cảnh 1M. Gọi qua API.
DeepSeek-V4-Pro-Base: Pretrain, chưa finetune. Dành cho nghiên cứu/tinh chỉnh.
DeepSeek-V4-Flash: 284B, 13B hoạt động, ngữ cảnh 1M. Tối ưu độ trễ, chạy được trên 2-3 H100.
DeepSeek-V4-Flash-Base: Pretrain cho Flash.

Tất cả đều MIT license. Khác biệt lớn: V4-Pro trọng số mở, bạn có thể tải về, tùy biến, triển khai không phí bản quyền.

Những thay đổi so với V3.2

V4 cải tiến vượt trội về kiến trúc attention và pipeline huấn luyện.

Khả năng	V3.2	V4-Pro
Tổng tham số	685B	1.6T
Tham số hoạt động	37B	49B
Cửa sổ ngữ cảnh	128K	1M
FLOPs suy luận (1M)	Cơ sở	27% của V3.2
KV-cache (1M)	Cơ sở	10% của V3.2
Độ chính xác	FP8	FP4 + FP8 hỗn hợp
Giấy phép	DeepSeek	MIT
Chế độ suy luận	Đơn lẻ	Ba

Ba cải tiến chính:

Attention lai: Kết hợp Compressed Sparse Attention & Heavily Compressed Attention giúp giảm KV-cache chỉ còn 10%.
Manifold-Constrained Hyper-Connections: Ổn định gradient khi tăng chiều sâu mô hình.
Tối ưu hóa Muon: Tăng tốc hội tụ so với AdamW.

Tập dữ liệu huấn luyện vượt 32 nghìn tỷ token, huấn luyện sau chia 2 giai đoạn: pretrain chuyên gia, rồi policy distillation.

Điểm chuẩn quan trọng

V4-Pro dẫn đầu về code và kiến thức, còn hạn chế ở truy xuất ngữ cảnh dài.

V4-Flash: MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0.
V4-Pro mạnh nhất cho lập trình tự động, suy luận phức tạp.
Claude vẫn nhỉnh hơn ở truy xuất 1M token.

Ba chế độ suy luận

Chọn mode phù hợp giúp tối ưu chi phí và chất lượng:

Non-Think: Phản hồi nhanh, không sinh chuỗi suy nghĩ. Dùng cho phân loại, định tuyến, tóm tắt ngắn.
Think High: Mặc định cho task khó, sinh token suy luận trước khi trả lời, lập kế hoạch tool-call, kiểm tra output.
Think Max: Dấu vết suy luận dài, tự phê bình mạnh, khuyến nghị ngữ cảnh ≥ 384K token. Đạt điểm LiveCodeBench cao nhất nhưng tốn token.

Chuyển đổi qua tham số API thinking_mode. Đề xuất sampling: temperature=1.0, top_p=1.0.

Kiến trúc đơn giản hoá

Ba yếu tố then chốt:

Attention lai: Hầu hết layer dùng Compressed Sparse Attention, một số ít layer dùng Heavily Compressed Attention để tối ưu chi phí ở 1M token.
Manifold-Constrained Hyper-Connections: Kiểm soát residual để tránh hỗn loạn gradient khi stack nhiều layer.
Muon optimizer: Thay AdamW, hội tụ nhanh hơn cho MoE.

Khả năng triển khai thực tế

Ảnh chụp nhanh (24/4/2026):

Nền tảng	Truy cập
chat.deepseek.com	Chat web miễn phí, V4-Pro mặc định, cần đăng nhập
API DeepSeek	`api.deepseek.com` với model ID `deepseek-v4-pro` và `deepseek-v4-flash`
Trọng số Hugging Face	V4-Pro, V4-Flash
ModelScope	Bản sao trọng số cho người dùng tại Trung Quốc
OpenRouter & aggregator	Sắp có
`deepseek-chat`/`reasoner`	Ngừng hỗ trợ từ 24/7/2026

Lưu ý: Nếu còn dùng deepseek-chat, cần chuyển sang deepseek-v4-pro hoặc deepseek-v4-flash trong vòng 3 tháng.

So sánh với GPT-5.5 & Claude

Chi phí: V4-Pro/V4-Flash trọng số mở, tự host tiết kiệm hơn GPT-5.5/Claude (đều đóng).
Lập trình: V4-Pro 93.5 LiveCodeBench, 3206 Codeforces, vượt GPT-5.5/Claude.
Kiến thức: Gemini 3.1 Pro dẫn đầu MMLU-Pro. V4-Pro ngang GPT-5.5, hơn Claude trên SimpleQA-Verified.
Truy xuất dài: Claude Opus vẫn mạnh nhất.
Giấy phép: MIT cho phép tích hợp sản phẩm thương mại dễ dàng.

Ứng dụng thực tiễn

Nên dùng V4 cho:

Agentic coding loops: Gỡ lỗi đa tệp, refactor, sửa lỗi tự động. Kết hợp với Apidog để kiểm thử API request/response khi tinh chỉnh prompt.
Suy luận tài liệu dài: 1M token phù hợp monorepo, hợp đồng lớn, dataset nghiên cứu. Chọn Think High.
Sản phẩm AI tự lưu trữ: V4-Flash là mô hình mở đầu tiên cạnh tranh chất lượng với API đóng.
Nghiên cứu & tinh chỉnh: Dùng các checkpoint Base + dữ liệu riêng để tạo model chuyên biệt.

Không phù hợp: Phân loại số lượng lớn, truy xuất embedding, chat prompt ngắn (V4-Flash vẫn quá mạnh, dùng V3.2 hiệu quả hơn).

Giá cả

Chưa có giá API chính thức. V3.2: ~$0.28/triệu token input, ~$0.42/triệu token output. Dự kiến V4-Flash ngang giá, V4-Pro cao hơn nhẹ. Đối thủ đóng: $5–15/triệu token input. Theo dõi cập nhật tại trang giá DeepSeek.

Cách thử nghiệm V4 ngay

Ba cách, ưu tiên tốc độ nhận token đầu tiên:

Chat web: Truy cập chat.deepseek.com, đăng nhập, mặc định V4-Pro, chuyển Think High trong UI. Miễn phí, không cần thẻ.
API: Lấy API key, trỏ client tới https://api.deepseek.com, set "model": "deepseek-v4-pro". Request format tương thích OpenAI. Xem hướng dẫn API DeepSeek V4.
Trọng số local: Tải từ Hugging Face hoặc ModelScope. V4-Flash chạy 2–4 H100; V4-Pro cần cluster lớn. Code inference trong /inference của repo model.

Để có hướng dẫn chi tiết về prompt engineering với Apidog, xem cách sử dụng DeepSeek V4. Muốn dùng miễn phí, xem hướng dẫn DeepSeek V4 miễn phí. Tải Apidog và tạo trước collection; định dạng OpenAI giúp một request chạy được trên DeepSeek, OpenAI, v.v.

Câu hỏi thường gặp

DeepSeek V4 có thực sự mã nguồn mở không?

Có. Bốn checkpoint MIT, dùng thương mại/tùy biến/phân phối lại không cần xin phép.

Chạy V4-Flash cần cụm GPU mạnh không?

Cần 2–4 H100/H200 cho V4-Flash full precision, ít hơn nếu lượng tử hóa. V4-Pro cần cluster lớn. Nếu không có GPU, hãy dùng API hoặc chat.deepseek.com.

API DeepSeek đã hỗ trợ V4 chưa?

Đã hoạt động từ 23/4/2026. Model ID: deepseek-v4-pro, deepseek-v4-flash. deepseek-chat và deepseek-reasoner ngừng từ 24/7/2026.

V4 so với Kimi, Qwen thế nào?

V4-Pro điểm LiveCodeBench/Codeforces cao hơn Kimi K2, Qwen 3 Max. Cả ba đều MoE, trọng số mở, triển khai tương tự. Chọn theo benchmark phù hợp workload.

Có thể tinh chỉnh V4 không?

Có. Dùng checkpoint Base + dữ liệu bạn, pipeline SFT tiêu chuẩn. MIT license cho phép phân phối thương mại.

V4 dùng được với công cụ OpenAI cũ không?

Có. API nhận định dạng OpenAI, Anthropic tại https://api.deepseek.com và https://api.deepseek.com/anthropic. Hầu hết client OpenAI chỉ cần đổi base URL. Xem hướng dẫn API GPT-5.5 để biết mẫu code.

DEV Community