DEV Community

Cover image for DeepSeek V4-Pro Giảm Giá 75% Vĩnh Viễn: Tác Động Đến Lập Trình Viên (2026)
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

DeepSeek V4-Pro Giảm Giá 75% Vĩnh Viễn: Tác Động Đến Lập Trình Viên (2026)

DeepSeek đã biến mức giảm giá tạm thời mạnh nhất trong bảng giá LLM năm 2026 thành mức bình thường mới. Ngày 22/5, nhóm DeepSeek thông báo ưu đãi giảm 75% cho DeepSeek-V4-Pro, ban đầu dự kiến hết hạn vào 31/5/2026 lúc 15:59 UTC, sẽ không bị thu hồi. Mức giá khuyến mãi trở thành giá niêm yết vĩnh viễn: input còn 0,435 USD mỗi triệu token, output còn 0,87 USD và cache hit còn 0,003625 USD. Bài viết này tập trung vào những việc nhà phát triển API nên kiểm tra lại ngay: chi phí, cache-hit, routing model và regression test trước khi di chuyển.

Dùng thử Apidog ngay hôm nay

Tóm tắt nhanh

  • DeepSeek-V4-Pro hiện có giá vĩnh viễn bằng 1/4 giá niêm yết ban đầu:
    • Input: 0,435 USD/MTok
    • Output: 0,87 USD/MTok
    • Cache hit: 0,003625 USD/MTok
  • Mức giảm 75% dự kiến kết thúc ngày 31/5/2026 giờ trở thành giá thông thường.
  • V4-Pro rẻ hơn khoảng 34 lần so với GPT-5.5 về output, trong khi vẫn đạt khoảng 95% hiệu suất GPT-5.5 trên nhiều benchmark lập trình và suy luận.
  • Giá cache-hit 0,003625 USD/MTok là điểm đáng chú ý nhất cho các agent có system prompt dài.
  • Nếu bạn định giá tính năng AI dựa trên GPT-5.5 hoặc Claude Opus 4.7 trong quý trước, hãy tính lại chi phí trong tuần này.

Vì sao thay đổi này quan trọng với developer

Giá LLM thường giảm dần theo từng đợt nhỏ. DeepSeek làm khác: họ chạy chương trình khuyến mãi mạnh trong tháng 5, thấy lưu lượng developer tăng, rồi giữ luôn mức giá đó làm giá chính thức.

Nếu sản phẩm của bạn dùng LLM cho autocomplete, RAG chat, code review hoặc agent loop, chênh lệch giữa 3,48 USD0,87 USD cho mỗi triệu token output sẽ xuất hiện trực tiếp trên hóa đơn.

Ví dụ:

Output mỗi ngày: 50 triệu token
Giá cũ: 3,48 USD / 1 triệu token
Giá mới: 0,87 USD / 1 triệu token

Chi phí cũ mỗi tháng ≈ 50 × 3,48 × 30 = 5.220 USD
Chi phí mới mỗi tháng ≈ 50 × 0,87 × 30 = 1.305 USD
Tiết kiệm ≈ 3.915 USD/tháng
Enter fullscreen mode Exit fullscreen mode

Nếu bạn đang xây dựng trên DeepSeek, Apidog giúp tạo, kiểm thử và giám sát các lệnh gọi API V4-Pro trong một workspace, bao gồm streaming, tool calls và xác thực JSON schema.

Phần còn lại của bài viết sẽ đi vào:

  1. Bảng giá mới.
  2. So sánh với GPT-5.5, Claude Opus 4.7 và Gemini 3.5 Flash.
  3. Cách tính cache-hit cho system prompt dài.
  4. Ba kịch bản hóa đơn thực tế.
  5. Checklist 5 bước để quyết định có nên di chuyển sang V4-Pro hay không.

Có gì thay đổi trong thông báo của DeepSeek

Thông báo giá của DeepSeek ngắn, nhưng có ba điểm quan trọng cho developer.

1. Giảm giá 75% là vĩnh viễn

Chương trình khuyến mãi ban đầu dự kiến kết thúc vào ngày 31/5/2026 lúc 15:59 UTC. Theo kế hoạch cũ, giá sẽ quay lại mức ban đầu từ ngày 1/6.

Điều đó không xảy ra. Giá khuyến mãi trở thành giá niêm yết mới và kéo dài vô thời hạn.

2. Mức giảm chỉ áp dụng cho V4-Pro

DeepSeek-V4-Flash vốn đã rẻ, với giá 0,14 USD input và 0,28 USD output mỗi triệu token. Mức giảm lớn lần này áp dụng cho V4-Pro, tức model cấp cao hơn.

Nếu bạn cần phân biệt Flash và Pro, xem thêm: DeepSeek V4 là gì.

3. Cache-hit giảm xuống còn 1/10 so với ban đầu

Giá cache-hit đã giảm từ ngày 26/4/2026 lúc 12:15 UTC. Thay đổi này tách biệt với mức giảm 75% chính, và cả hai cùng được áp dụng.

Kết quả: cache hit còn 0,003625 USD/MTok.

Điều này đặc biệt quan trọng nếu bạn chạy:

  • Agent có system prompt dài.
  • Tool schema lớn.
  • Few-shot examples cố định.
  • RAG pipeline có phần hướng dẫn không đổi.
  • Workflow gọi model nhiều lượt với prefix giống nhau.

Bảng giá vĩnh viễn mới của DeepSeek-V4-Pro

Giá tính theo 1 triệu token, USD:

Loại token Giá cũ Giá vĩnh viễn mới Mức giảm
Input không có cache hit $1.74 $0.435 75%
Input có cache hit $0.0145 $0.003625 75%
Output $3.48 $0.87 75%

Điểm cần chú ý:

  • Output thường là phần làm hóa đơn tăng nhanh nhất trong agent loop, code generation và reasoning workflow.
  • Tỷ lệ giữa input miss và input hit là khoảng 120:1.
  • Nếu system prompt của bạn ổn định và đạt cache-hit cao, chi phí input gần như không còn là nút thắt.
  • Các mức giá này áp dụng cho API. DeepSeek web chat vẫn miễn phí cho người dùng cá nhân.

Để xem thêm bối cảnh về các bậc giá V4, tham khảo Giá API DeepSeek V4.

So sánh V4-Pro với GPT-5.5, Claude Opus 4.7 và Gemini 3.5 Flash

Bảng dưới đây tập trung vào chi phí token và benchmark SWE-bench Pro:

Model Input (USD/MTok) Output (USD/MTok) SWE-bench Pro
DeepSeek-V4-Pro mới $0.435 $0.87 55.4%
GPT-5.5 $5.00 $30.00 58.6%
Claude Opus 4.7 $3.00 $15.00 ~62%
Gemini 3.5 Flash ~$1.50 ~$9.00 ~48%
DeepSeek-V4-Flash $0.14 $0.28 ~42%

Hai con số quan trọng:

  • Về output, DeepSeek-V4-Pro rẻ hơn 34 lần so với GPT-5.5.
  • V4-Pro rẻ hơn khoảng 17 lần so với Claude Opus 4.7 về output.

Theo so sánh của DataCamp, V4-Pro nằm trong khoảng cách 3 đến 7 điểm phần trăm so với GPT-5.5 trên nhiều đánh giá lập trình và suy luận công khai.

Cách áp dụng thực tế:

  • Nếu workload không yêu cầu chất lượng tối đa ở mọi request, hãy route phần lớn traffic sang V4-Pro.
  • Nếu workload cần model mạnh hơn cho một số case khó, dùng V4-Pro làm model mặc định và fallback sang model cao cấp.
  • Nếu bạn có pipeline nhiều bước, dùng V4-Pro cho draft, phân loại, trích xuất, pre-check hoặc critique trước khi gọi model đắt hơn.

Xem thêm các bài so sánh:

Cách tính cache-hit cho system prompt dài

Nhiều bài viết chỉ nhắc đến giá output 0,87 USD/MTok. Nhưng với agent thực tế, giá cache-hit mới có thể làm thay đổi thiết kế hệ thống.

Prompt caching của DeepSeek hoạt động khi prefix của request giống hệt từng byte với một request gần đây, trong khoảng thời gian 30 phút.

Prefix thường bao gồm:

  • System prompt.
  • Tool schema.
  • Quy tắc định dạng output.
  • Few-shot examples.
  • Instruction cố định của agent.

Các phần này thường dài từ 4.000 đến 10.000 token và không đổi giữa các lượt gọi.

Ví dụ tính chi phí

Giả sử trợ lý của bạn có:

System prompt: 6.000 token
User message trung bình: 200 token
Output trung bình: 800 token
Số lượt mỗi ngày: 100.000
Enter fullscreen mode Exit fullscreen mode

Trường hợp không có cache hit

Input mỗi lượt = 6.000 + 200 = 6.200 token
Input mỗi ngày = 100.000 × 6.200 = 620.000.000 token

Chi phí input = 620 × 0,435 = 269,70 USD/ngày
Enter fullscreen mode Exit fullscreen mode

Trường hợp 90% system prompt được cache hit

Với mỗi lượt:

User input không cache = 200 token
System prompt cache hit = 6.000 × 90%
System prompt cache miss = 6.000 × 10%
Enter fullscreen mode Exit fullscreen mode

Chi phí xấp xỉ:

User input:
100.000 × 200 × 0,435 / 1.000.000 = 8,70 USD/ngày

System prompt cache hit:
100.000 × 6.000 × 90% × 0,003625 / 1.000.000 ≈ 1,96 USD/ngày

System prompt cache miss:
100.000 × 6.000 × 10% × 0,435 / 1.000.000 = 26,10 USD/ngày

Tổng ≈ 36,76 USD/ngày
Enter fullscreen mode Exit fullscreen mode

So với 269,70 USD/ngày, chi phí input giảm rất mạnh. Con số trong thực tế có thể thay đổi theo tỷ lệ cache-hit và cấu trúc prompt, nhưng nguyên tắc vẫn giữ nguyên: prefix ổn định giúp giảm chi phí.

Để hiểu thêm cơ chế caching giữa các nhà cung cấp, xem bài chuyên sâu về prompt caching.

Ba cách tăng cache-hit trong agent thực tế

1. Ghim prefix cố định

Đặt các phần cố định ở đầu request:

[System prompt]
[Tool definitions]
[JSON schema]
[Few-shot examples]
[Developer instructions]
[User message]
[Dynamic context]
Enter fullscreen mode Exit fullscreen mode

Không đưa timestamp, user ID, session ID hoặc dữ liệu phiên vào system prompt.

2. Ổn định thứ tự context động

Nếu bạn thêm các đoạn RAG vào prompt, hãy đảm bảo thứ tự ổn định.

Ví dụ:

const stableChunks = chunks.sort((a, b) => {
  return a.documentId.localeCompare(b.documentId) || a.offset - b.offset;
});
Enter fullscreen mode Exit fullscreen mode

Những thay đổi nhỏ trong thứ tự hoặc whitespace có thể làm hỏng cache.

3. Gửi request khởi động

Khi service khởi động, gửi một request với prefix đầy đủ để làm nóng cache trước khi nhận traffic thật.

Ví dụ pseudo-code:

await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    { role: "system", content: SYSTEM_PROMPT_WITH_TOOLS },
    { role: "user", content: "warmup" }
  ],
  max_tokens: 1
});
Enter fullscreen mode Exit fullscreen mode

Checklist: bạn nên làm gì trong tuần này

Di chuyển model không nên là quyết định cảm tính. Hãy chạy theo 5 bước sau.

Bước 1: Đo tỷ lệ output/input hiện tại

Từ log hoặc billing, tính:

output_ratio = output_tokens / (input_tokens + output_tokens)
Enter fullscreen mode Exit fullscreen mode

Nếu output chiếm 70-80% tổng token, V4-Pro có thể tiết kiệm rất lớn.

Nếu input chiếm phần lớn, hãy kiểm tra thêm cache-hit.

Bước 2: Chạy evaluation trên 100 mẫu thật

Không chỉ dựa vào benchmark công khai. Lấy 100 trace từ production hoặc staging:

  • Prompt thật.
  • Input thật.
  • Expected behavior thật.
  • Tool-call format thật nếu có.

Chạy song song:

Current model → output A
DeepSeek-V4-Pro → output B
Evaluator / human review → pass/fail/score
Enter fullscreen mode Exit fullscreen mode

Mục tiêu là tìm phần traffic mà V4-Pro đủ tốt, không cần chứng minh nó thắng mọi model.

Bước 3: Route theo độ khó

Một chiến lược thực dụng:

70-85% request thông thường → DeepSeek-V4-Pro
15-30% request khó → model cao cấp hiện tại
Enter fullscreen mode Exit fullscreen mode

Ví dụ routing đơn giản:

function chooseModel(request) {
  if (request.requiresLongTermPlanning) return "premium-model";
  if (request.hasHighRiskToolCall) return "premium-model";
  if (request.contextTokens > 100_000) return "premium-model";

  return "deepseek-v4-pro";
}
Enter fullscreen mode Exit fullscreen mode

Cách này thường giúp giảm chi phí lớn mà không cần thay toàn bộ stack.

Bước 4: Khóa prefix để tận dụng cache

Kiểm tra lại system prompt:

Không nên đặt các dữ liệu này trong prefix:

Current time: ...
User ID: ...
Session ID: ...
Request ID: ...
Random nonce: ...
Enter fullscreen mode Exit fullscreen mode

Hãy chuyển chúng sang user message hoặc metadata ngoài prompt nếu có thể.

Bước 5: Thiết lập regression test trước khi rollout

Đây là phần nên tự động hóa. Với Apidog, bạn có thể:

  • Import collection tương thích OpenAI.
  • Đổi base URL sang https://api.deepseek.com.
  • Gửi lại cùng request sang V4-Pro.
  • So sánh response với output “vàng”.
  • Xác thực JSON schema cho tool-call hoặc structured output.

Ví dụ schema kiểm tra output:

{
  "type": "object",
  "required": ["action", "arguments"],
  "properties": {
    "action": {
      "type": "string"
    },
    "arguments": {
      "type": "object"
    }
  }
}
Enter fullscreen mode Exit fullscreen mode

Nếu response sai cấu trúc, test fail trước khi ảnh hưởng production.

Bạn có thể tải Apidog, nhập collection hiện tại, đổi base URL thành https://api.deepseek.com và chạy thử nghiệm song song trong vài phút.

Để xem chi tiết endpoint V4-Pro, tham khảo Cách sử dụng API DeepSeek V4.

V4-Pro so với các đợt giảm giá LLM khác năm 2026

DeepSeek không phải bên duy nhất giảm giá. Thị trường LLM năm 2026 đang bước vào giai đoạn cạnh tranh mạnh về biên lợi nhuận:

Điểm khác biệt của V4-Pro là mức giảm nhắm vào phân khúc model có năng lực cao, không chỉ model giá rẻ. Vì vậy, tác động của nó lớn hơn với các team đang chạy workload production.

Kết luận: hãy tính lại chi phí LLM của bạn

DeepSeek không chỉ giảm giá. Họ đã thay đổi đường cong chi phí cho model mạnh. Output dưới 1 USD/MTok giờ không còn là ngoại lệ.

Nếu bạn từng hoãn một tính năng AI vì chi phí, hãy tính lại với giá mới.

Ba việc nên làm ngay:

  1. Chọn 1 trong 3 workload LLM tốn kém nhất và chạy evaluation với V4-Pro.
  2. Ổn định system prompt, tool schema và few-shot examples để tăng cache-hit.
  3. Thiết lập regression test bằng Apidog để lần thay đổi giá hoặc model tiếp theo có thể được đánh giá trong vài giờ thay vì vài tuần.

Cờ khuyến mãi đã biến mất. Nhưng mức giảm giá thì không.

Top comments (0)