DeepSeek đã biến mức giảm giá tạm thời mạnh nhất trong bảng giá LLM năm 2026 thành mức bình thường mới. Ngày 22/5, nhóm DeepSeek thông báo ưu đãi giảm 75% cho DeepSeek-V4-Pro, ban đầu dự kiến hết hạn vào 31/5/2026 lúc 15:59 UTC, sẽ không bị thu hồi. Mức giá khuyến mãi trở thành giá niêm yết vĩnh viễn: input còn 0,435 USD mỗi triệu token, output còn 0,87 USD và cache hit còn 0,003625 USD. Bài viết này tập trung vào những việc nhà phát triển API nên kiểm tra lại ngay: chi phí, cache-hit, routing model và regression test trước khi di chuyển.
Tóm tắt nhanh
- DeepSeek-V4-Pro hiện có giá vĩnh viễn bằng 1/4 giá niêm yết ban đầu:
- Input: 0,435 USD/MTok
- Output: 0,87 USD/MTok
- Cache hit: 0,003625 USD/MTok
- Mức giảm 75% dự kiến kết thúc ngày 31/5/2026 giờ trở thành giá thông thường.
- V4-Pro rẻ hơn khoảng 34 lần so với GPT-5.5 về output, trong khi vẫn đạt khoảng 95% hiệu suất GPT-5.5 trên nhiều benchmark lập trình và suy luận.
- Giá cache-hit 0,003625 USD/MTok là điểm đáng chú ý nhất cho các agent có system prompt dài.
- Nếu bạn định giá tính năng AI dựa trên GPT-5.5 hoặc Claude Opus 4.7 trong quý trước, hãy tính lại chi phí trong tuần này.
Vì sao thay đổi này quan trọng với developer
Giá LLM thường giảm dần theo từng đợt nhỏ. DeepSeek làm khác: họ chạy chương trình khuyến mãi mạnh trong tháng 5, thấy lưu lượng developer tăng, rồi giữ luôn mức giá đó làm giá chính thức.
Nếu sản phẩm của bạn dùng LLM cho autocomplete, RAG chat, code review hoặc agent loop, chênh lệch giữa 3,48 USD và 0,87 USD cho mỗi triệu token output sẽ xuất hiện trực tiếp trên hóa đơn.
Ví dụ:
Output mỗi ngày: 50 triệu token
Giá cũ: 3,48 USD / 1 triệu token
Giá mới: 0,87 USD / 1 triệu token
Chi phí cũ mỗi tháng ≈ 50 × 3,48 × 30 = 5.220 USD
Chi phí mới mỗi tháng ≈ 50 × 0,87 × 30 = 1.305 USD
Tiết kiệm ≈ 3.915 USD/tháng
Nếu bạn đang xây dựng trên DeepSeek, Apidog giúp tạo, kiểm thử và giám sát các lệnh gọi API V4-Pro trong một workspace, bao gồm streaming, tool calls và xác thực JSON schema.
Phần còn lại của bài viết sẽ đi vào:
- Bảng giá mới.
- So sánh với GPT-5.5, Claude Opus 4.7 và Gemini 3.5 Flash.
- Cách tính cache-hit cho system prompt dài.
- Ba kịch bản hóa đơn thực tế.
- Checklist 5 bước để quyết định có nên di chuyển sang V4-Pro hay không.
Có gì thay đổi trong thông báo của DeepSeek
Thông báo giá của DeepSeek ngắn, nhưng có ba điểm quan trọng cho developer.
1. Giảm giá 75% là vĩnh viễn
Chương trình khuyến mãi ban đầu dự kiến kết thúc vào ngày 31/5/2026 lúc 15:59 UTC. Theo kế hoạch cũ, giá sẽ quay lại mức ban đầu từ ngày 1/6.
Điều đó không xảy ra. Giá khuyến mãi trở thành giá niêm yết mới và kéo dài vô thời hạn.
2. Mức giảm chỉ áp dụng cho V4-Pro
DeepSeek-V4-Flash vốn đã rẻ, với giá 0,14 USD input và 0,28 USD output mỗi triệu token. Mức giảm lớn lần này áp dụng cho V4-Pro, tức model cấp cao hơn.
Nếu bạn cần phân biệt Flash và Pro, xem thêm: DeepSeek V4 là gì.
3. Cache-hit giảm xuống còn 1/10 so với ban đầu
Giá cache-hit đã giảm từ ngày 26/4/2026 lúc 12:15 UTC. Thay đổi này tách biệt với mức giảm 75% chính, và cả hai cùng được áp dụng.
Kết quả: cache hit còn 0,003625 USD/MTok.
Điều này đặc biệt quan trọng nếu bạn chạy:
- Agent có system prompt dài.
- Tool schema lớn.
- Few-shot examples cố định.
- RAG pipeline có phần hướng dẫn không đổi.
- Workflow gọi model nhiều lượt với prefix giống nhau.
Bảng giá vĩnh viễn mới của DeepSeek-V4-Pro
Giá tính theo 1 triệu token, USD:
| Loại token | Giá cũ | Giá vĩnh viễn mới | Mức giảm |
|---|---|---|---|
| Input không có cache hit | $1.74 | $0.435 | 75% |
| Input có cache hit | $0.0145 | $0.003625 | 75% |
| Output | $3.48 | $0.87 | 75% |
Điểm cần chú ý:
- Output thường là phần làm hóa đơn tăng nhanh nhất trong agent loop, code generation và reasoning workflow.
- Tỷ lệ giữa input miss và input hit là khoảng 120:1.
- Nếu system prompt của bạn ổn định và đạt cache-hit cao, chi phí input gần như không còn là nút thắt.
- Các mức giá này áp dụng cho API. DeepSeek web chat vẫn miễn phí cho người dùng cá nhân.
Để xem thêm bối cảnh về các bậc giá V4, tham khảo Giá API DeepSeek V4.
So sánh V4-Pro với GPT-5.5, Claude Opus 4.7 và Gemini 3.5 Flash
Bảng dưới đây tập trung vào chi phí token và benchmark SWE-bench Pro:
| Model | Input (USD/MTok) | Output (USD/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro mới | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Hai con số quan trọng:
- Về output, DeepSeek-V4-Pro rẻ hơn 34 lần so với GPT-5.5.
- V4-Pro rẻ hơn khoảng 17 lần so với Claude Opus 4.7 về output.
Theo so sánh của DataCamp, V4-Pro nằm trong khoảng cách 3 đến 7 điểm phần trăm so với GPT-5.5 trên nhiều đánh giá lập trình và suy luận công khai.
Cách áp dụng thực tế:
- Nếu workload không yêu cầu chất lượng tối đa ở mọi request, hãy route phần lớn traffic sang V4-Pro.
- Nếu workload cần model mạnh hơn cho một số case khó, dùng V4-Pro làm model mặc định và fallback sang model cao cấp.
- Nếu bạn có pipeline nhiều bước, dùng V4-Pro cho draft, phân loại, trích xuất, pre-check hoặc critique trước khi gọi model đắt hơn.
Xem thêm các bài so sánh:
- DeepSeek V4 vs Claude Opus 4.5 cho lập trình
- GLM-5 vs DeepSeek V3 vs GPT-5: tốc độ, chi phí và so sánh thực tế dành cho nhà phát triển
Cách tính cache-hit cho system prompt dài
Nhiều bài viết chỉ nhắc đến giá output 0,87 USD/MTok. Nhưng với agent thực tế, giá cache-hit mới có thể làm thay đổi thiết kế hệ thống.
Prompt caching của DeepSeek hoạt động khi prefix của request giống hệt từng byte với một request gần đây, trong khoảng thời gian 30 phút.
Prefix thường bao gồm:
- System prompt.
- Tool schema.
- Quy tắc định dạng output.
- Few-shot examples.
- Instruction cố định của agent.
Các phần này thường dài từ 4.000 đến 10.000 token và không đổi giữa các lượt gọi.
Ví dụ tính chi phí
Giả sử trợ lý của bạn có:
System prompt: 6.000 token
User message trung bình: 200 token
Output trung bình: 800 token
Số lượt mỗi ngày: 100.000
Trường hợp không có cache hit
Input mỗi lượt = 6.000 + 200 = 6.200 token
Input mỗi ngày = 100.000 × 6.200 = 620.000.000 token
Chi phí input = 620 × 0,435 = 269,70 USD/ngày
Trường hợp 90% system prompt được cache hit
Với mỗi lượt:
User input không cache = 200 token
System prompt cache hit = 6.000 × 90%
System prompt cache miss = 6.000 × 10%
Chi phí xấp xỉ:
User input:
100.000 × 200 × 0,435 / 1.000.000 = 8,70 USD/ngày
System prompt cache hit:
100.000 × 6.000 × 90% × 0,003625 / 1.000.000 ≈ 1,96 USD/ngày
System prompt cache miss:
100.000 × 6.000 × 10% × 0,435 / 1.000.000 = 26,10 USD/ngày
Tổng ≈ 36,76 USD/ngày
So với 269,70 USD/ngày, chi phí input giảm rất mạnh. Con số trong thực tế có thể thay đổi theo tỷ lệ cache-hit và cấu trúc prompt, nhưng nguyên tắc vẫn giữ nguyên: prefix ổn định giúp giảm chi phí.
Để hiểu thêm cơ chế caching giữa các nhà cung cấp, xem bài chuyên sâu về prompt caching.
Ba cách tăng cache-hit trong agent thực tế
1. Ghim prefix cố định
Đặt các phần cố định ở đầu request:
[System prompt]
[Tool definitions]
[JSON schema]
[Few-shot examples]
[Developer instructions]
[User message]
[Dynamic context]
Không đưa timestamp, user ID, session ID hoặc dữ liệu phiên vào system prompt.
2. Ổn định thứ tự context động
Nếu bạn thêm các đoạn RAG vào prompt, hãy đảm bảo thứ tự ổn định.
Ví dụ:
const stableChunks = chunks.sort((a, b) => {
return a.documentId.localeCompare(b.documentId) || a.offset - b.offset;
});
Những thay đổi nhỏ trong thứ tự hoặc whitespace có thể làm hỏng cache.
3. Gửi request khởi động
Khi service khởi động, gửi một request với prefix đầy đủ để làm nóng cache trước khi nhận traffic thật.
Ví dụ pseudo-code:
await client.chat.completions.create({
model: "deepseek-v4-pro",
messages: [
{ role: "system", content: SYSTEM_PROMPT_WITH_TOOLS },
{ role: "user", content: "warmup" }
],
max_tokens: 1
});
Checklist: bạn nên làm gì trong tuần này
Di chuyển model không nên là quyết định cảm tính. Hãy chạy theo 5 bước sau.
Bước 1: Đo tỷ lệ output/input hiện tại
Từ log hoặc billing, tính:
output_ratio = output_tokens / (input_tokens + output_tokens)
Nếu output chiếm 70-80% tổng token, V4-Pro có thể tiết kiệm rất lớn.
Nếu input chiếm phần lớn, hãy kiểm tra thêm cache-hit.
Bước 2: Chạy evaluation trên 100 mẫu thật
Không chỉ dựa vào benchmark công khai. Lấy 100 trace từ production hoặc staging:
- Prompt thật.
- Input thật.
- Expected behavior thật.
- Tool-call format thật nếu có.
Chạy song song:
Current model → output A
DeepSeek-V4-Pro → output B
Evaluator / human review → pass/fail/score
Mục tiêu là tìm phần traffic mà V4-Pro đủ tốt, không cần chứng minh nó thắng mọi model.
Bước 3: Route theo độ khó
Một chiến lược thực dụng:
70-85% request thông thường → DeepSeek-V4-Pro
15-30% request khó → model cao cấp hiện tại
Ví dụ routing đơn giản:
function chooseModel(request) {
if (request.requiresLongTermPlanning) return "premium-model";
if (request.hasHighRiskToolCall) return "premium-model";
if (request.contextTokens > 100_000) return "premium-model";
return "deepseek-v4-pro";
}
Cách này thường giúp giảm chi phí lớn mà không cần thay toàn bộ stack.
Bước 4: Khóa prefix để tận dụng cache
Kiểm tra lại system prompt:
Không nên đặt các dữ liệu này trong prefix:
Current time: ...
User ID: ...
Session ID: ...
Request ID: ...
Random nonce: ...
Hãy chuyển chúng sang user message hoặc metadata ngoài prompt nếu có thể.
Bước 5: Thiết lập regression test trước khi rollout
Đây là phần nên tự động hóa. Với Apidog, bạn có thể:
- Import collection tương thích OpenAI.
- Đổi base URL sang
https://api.deepseek.com. - Gửi lại cùng request sang V4-Pro.
- So sánh response với output “vàng”.
- Xác thực JSON schema cho tool-call hoặc structured output.
Ví dụ schema kiểm tra output:
{
"type": "object",
"required": ["action", "arguments"],
"properties": {
"action": {
"type": "string"
},
"arguments": {
"type": "object"
}
}
}
Nếu response sai cấu trúc, test fail trước khi ảnh hưởng production.
Bạn có thể tải Apidog, nhập collection hiện tại, đổi base URL thành https://api.deepseek.com và chạy thử nghiệm song song trong vài phút.
Để xem chi tiết endpoint V4-Pro, tham khảo Cách sử dụng API DeepSeek V4.
V4-Pro so với các đợt giảm giá LLM khác năm 2026
DeepSeek không phải bên duy nhất giảm giá. Thị trường LLM năm 2026 đang bước vào giai đoạn cạnh tranh mạnh về biên lợi nhuận:
- OpenAI O3 giảm 80% đầu năm nay. Xem phân tích giá O3.
- Kimi K2 định giá lại để cạnh tranh với các model cấp DeepSeek V3. Xem bảng giá API Kimi K2.
- Anthropic Claude giữ giá Opus nhưng bổ sung các cấp Haiku và Sonnet rẻ hơn. Xem phân tích chi phí API Claude.
Điểm khác biệt của V4-Pro là mức giảm nhắm vào phân khúc model có năng lực cao, không chỉ model giá rẻ. Vì vậy, tác động của nó lớn hơn với các team đang chạy workload production.
Kết luận: hãy tính lại chi phí LLM của bạn
DeepSeek không chỉ giảm giá. Họ đã thay đổi đường cong chi phí cho model mạnh. Output dưới 1 USD/MTok giờ không còn là ngoại lệ.
Nếu bạn từng hoãn một tính năng AI vì chi phí, hãy tính lại với giá mới.
Ba việc nên làm ngay:
- Chọn 1 trong 3 workload LLM tốn kém nhất và chạy evaluation với V4-Pro.
- Ổn định system prompt, tool schema và few-shot examples để tăng cache-hit.
- Thiết lập regression test bằng Apidog để lần thay đổi giá hoặc model tiếp theo có thể được đánh giá trong vài giờ thay vì vài tuần.
Cờ khuyến mãi đã biến mất. Nhưng mức giảm giá thì không.
Top comments (0)