Các phòng thí nghiệm Trung Quốc đã cắt giảm giá API LLM sáu lần trong nửa đầu năm 2026, trong đó ba đợt được tuyên bố là vĩnh viễn. DeepSeek V4-Pro hiện ở mức 0,87 đô la/triệu token đầu ra. Xiaomi MiMo V2.5 đưa phân khúc ngữ cảnh dài về mức 3 đô la/triệu token đầu ra. Qwen3 Max của Alibaba là 3,90 đô la. Kimi K2.6 của Moonshot giữ mức cache-hit cơ bản 0,07 đô la. GLM-5 của Zhipu là 3,20 đô la đầu ra. Bài viết này tóm tắt giá, điểm mạnh, điểm yếu và cách chọn API phù hợp cho từng workload.
Tóm tắt nhanh
- Rẻ nhất trên mỗi token đầu ra: DeepSeek V4-Pro, 0,87 đô la/triệu token.
- Rẻ nhất cho ngữ cảnh 1 triệu token: Xiaomi MiMo V2.5 Pro, 3 đô la/triệu token đầu ra, cố định theo độ dài đầu vào.
- Cân bằng giá/chất lượng tốt nhất cho production phổ thông: Alibaba Qwen3 Max, 3,90 đô la/triệu token đầu ra, ngữ cảnh 262K.
- Rẻ nhất khi có cache-hit cho prompt hệ thống dài: Moonshot Kimi K2.6, 0,07 đô la/triệu token được cache.
- Phù hợp nhất cho reasoning nặng: Zhipu GLM-5, 3,20 đô la/triệu token đầu ra, ngữ cảnh 200K.
- Ba mô hình có đợt giảm giá vĩnh viễn trong năm 2026: DeepSeek, MiMo và Kimi.
Cuộc chiến giá LLM Trung Quốc năm 2026 diễn ra như thế nào
Mẫu hình bắt đầu từ quý 4 năm 2025 và tăng tốc trong quý 2 năm 2026:
- Quý 4 năm 2025: DeepSeek V3.2 ra mắt với 0,28 đô la/triệu token đầu vào, thấp hơn đáng kể so với nhiều mô hình tiên tiến của Mỹ. Kimi K2.6 tiếp nối bằng định giá theo tầng ngữ cảnh và mức cache-hit 0,07 đô la/triệu token.
- Tháng 3 năm 2026: Xiaomi ra mắt MiMo V2-Pro trên OpenRouter với giá cạnh tranh nhưng vẫn theo tầng.
- Tháng 4 năm 2026: DeepSeek V4 ra mắt với chương trình giảm giá 75%, dự kiến kết thúc ngày 31/5.
- Ngày 22/5/2026: DeepSeek thông báo mức giảm 75% là vĩnh viễn. V4-Pro giữ mức 0,435 đô la đầu vào / 0,87 đô la đầu ra. Xem phân tích đầy đủ tại đây.
- Ngày 27/5/2026: Xiaomi công bố giá MiMo V2.5 vĩnh viễn ở mức 1 đô la đầu vào / 3 đô la đầu ra, loại bỏ hệ số nhân cho ngữ cảnh dài. Xem thêm về đợt cắt giảm giá của MiMo.
Các đợt giảm này không ngẫu nhiên:
- DeepSeek tối ưu chi phí trên mỗi token.
- MiMo nhắm vào workload ngữ cảnh dài.
- Qwen và GLM giữ giá trung bình, cạnh tranh bằng khả năng và hệ sinh thái.
- Kimi tối ưu cho agent workflow và coding agent nhờ cache-hit rẻ.
Tổng quan: 5 API LLM Trung Quốc hàng đầu tháng 5/2026
| Mô hình | Đầu vào ($/triệu token) | Đầu ra ($/triệu token) | Cache hit | Ngữ cảnh | Tốt nhất cho |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | 0,435 đô la | 0,87 đô la | 0,003625 đô la | 128K | Rẻ nhất trên mỗi token, coding |
| Xiaomi MiMo V2.5 Pro | 1,00 đô la | 3,00 đô la | 0,20 đô la | 1M | RAG tài liệu dài, agent trên repo lớn |
| Alibaba Qwen3 Max | 0,78 đô la | 3,90 đô la | 0,156 đô la | 262K | Production cân bằng |
| Moonshot Kimi K2.6 | 0,16–2,00 đô la, theo tầng | ~2,50 đô la | 0,07 đô la | 128K | Prompt hệ thống dài, coding agent |
| Zhipu GLM-5 | 1,00 đô la | 3,20 đô la | Do nhà cung cấp định nghĩa | 200K | Reasoning có cấu trúc |
Cách đọc bảng:
- DeepSeek và MiMo có giá cố định. Điều này giúp dự báo chi phí production dễ hơn. Giá theo tầng có thể làm hóa đơn tăng mạnh khi prompt dài bất thường.
- Cache-hit là biến số lớn. Kimi K2.6 ở mức 0,07 đô la và DeepSeek V4-Pro ở mức 0,003625 đô la là hai ngoại lệ đáng chú ý. Nếu bạn dùng prompt hệ thống ổn định, hãy benchmark theo giá cache-hit, không chỉ giá niêm yết. Xem thêm: phân tích về prompt caching.
- Cửa sổ ngữ cảnh phân hóa rõ. Chỉ MiMo V2.5 cung cấp 1 triệu token với giá rẻ và cố định. Nếu workload cần hơn 300K token, MiMo gần như là lựa chọn mặc định.
DeepSeek: rẻ nhất trên mỗi token
Mô hình chính:
- V4-Pro: 0,435 đô la đầu vào / 0,87 đô la đầu ra / 0,003625 đô la cache-hit, ngữ cảnh 128K.
- V4-Flash: 0,14 đô la đầu vào / 0,28 đô la đầu ra.
DeepSeek V4-Pro là mức giá sàn trong nhóm mô hình tiên tiến của Trung Quốc. Đợt cắt giảm vĩnh viễn ngày 22/5 đưa token đầu ra xuống 0,87 đô la/triệu token. Cache-hit ở mức 0,003625 đô la/triệu token là một trong các mức thấp nhất từ nhà cung cấp lớn. Giá được xác nhận trên trang giá chính thức của DeepSeek.
Nên dùng DeepSeek V4-Pro khi nào?
Dùng V4-Pro nếu workload của bạn có đặc điểm:
- Tạo nhiều output: sinh code, agent chain, content generation.
- Hơn 70% ngân sách token nằm ở output.
- Prompt hệ thống ổn định khoảng 5K–10K token.
- Cần tối ưu chi phí production và chấp nhận khoảng cách benchmark 3–7 điểm so với mô hình đắt hơn.
Ví dụ workload phù hợp:
Input:
- System prompt cố định: coding guideline, style guide, repo convention
- User prompt ngắn: yêu cầu sửa bug hoặc sinh function
Output:
- Code patch dài
- Unit test
- Giải thích thay đổi
Không nên dùng khi nào?
Tránh V4-Pro nếu:
- Prompt vượt 128K token.
- Bạn cần xử lý tài liệu rất dài.
- Ứng dụng chat realtime yêu cầu latency rất thấp. V4-Pro là mô hình “thinking”, thời gian tạo token đầu tiên thường cao hơn mô hình flash.
Đọc thêm:
Xiaomi MiMo: lựa chọn ngữ cảnh 1 triệu token rẻ nhất
Mô hình chính:
- MiMo V2.5 Pro: 1,00 đô la đầu vào / 3,00 đô la đầu ra / 0,20 đô la cache-hit, ngữ cảnh 1 triệu.
- MiMo V2 Flash: khoảng 0,10 đô la đầu vào / 0,40 đô la đầu ra, ngữ cảnh 256K.
Đợt cắt giảm vĩnh viễn ngày 27/5 của Xiaomi đã loại bỏ giá theo tầng cho ngữ cảnh dài. Trước đó, prompt trên 256K token có thể bị nhân giá đáng kể. Với mức mới, bạn trả cùng tỷ lệ 1 đô la/3 đô la dù gửi 5K hay 950K token. Thông báo cập nhật giá chính thức gọi đây là thay đổi “vĩnh viễn”.
Nên dùng MiMo V2.5 Pro khi nào?
Chọn MiMo nếu bạn cần:
- RAG tài liệu dài.
- Phân tích toàn bộ codebase.
- Tóm tắt nhiều tài liệu cùng lúc.
- Prompt trong khoảng 300K đến 1 triệu token.
- Chi phí dễ dự báo hơn mức giá sàn tuyệt đối.
Ví dụ routing đơn giản:
function selectModel(inputTokens) {
if (inputTokens > 300_000) {
return "mimo-v2.5-pro";
}
return "deepseek-v4-pro";
}
Không nên dùng khi nào?
Tránh MiMo V2.5 Pro nếu:
- Prompt ngắn và output dài. DeepSeek thường rẻ hơn.
- Bạn cần response dưới một giây.
- Workload không tận dụng được cửa sổ ngữ cảnh lớn.
MiMo hiện có vị trí rõ ràng: ngữ cảnh dài, giá cố định, chi phí dễ dự báo.
Đọc thêm:
- Chi phí sử dụng Xiaomi MiMo V2.5 vào năm 2026
- Giá MiMo V2-Pro & Omni
- Chương trình 100T token miễn phí của Xiaomi MiMo Orbit
Alibaba Qwen: “ngựa thồ” cho production
Mô hình chính:
- Qwen3 Max: 0,78 đô la đầu vào / 3,90 đô la đầu ra / 0,156 đô la cache-hit, ngữ cảnh 262K.
- Qwen 3.7 Max mới hơn ở mức 2,50 đô la/triệu token đầu vào với ngữ cảnh 1 triệu đang trong giai đoạn triển khai sớm.
Giá Qwen3 Max được tham chiếu từ bảng Qwen3 Max của pricepertoken.
Qwen3 Max không phải mô hình rẻ nhất. Nó đắt hơn DeepSeek V4-Pro khoảng 1,8 lần ở input và 4,5 lần ở output. Bù lại, Qwen có hệ sinh thái triển khai rộng: tương thích OpenAI, tương thích Anthropic, Alibaba Cloud và các tùy chọn enterprise.
Nên dùng Qwen3 Max khi nào?
Chọn Qwen3 Max nếu bạn cần:
- Production đa ngôn ngữ, đặc biệt tiếng Trung và các ngôn ngữ châu Á.
- Ngữ cảnh 200K–262K token.
- Hạ tầng cloud và SLA doanh nghiệp trưởng thành.
- Chất lượng ổn định cho workload tổng quát.
Ví dụ use case:
Customer support đa ngôn ngữ:
- Input: lịch sử hội thoại + tài liệu chính sách
- Output: câu trả lời theo ngôn ngữ của khách hàng
- Yêu cầu: ổn định, ít lỗi format, triển khai enterprise
Không nên dùng khi nào?
Tránh Qwen3 Max nếu:
- Workload nặng output và rất nhạy cảm chi phí.
- DeepSeek đã đủ chất lượng cho test set nội bộ của bạn.
- Bạn không cần hệ sinh thái enterprise của Alibaba.
Đọc thêm: Qwen 3 so với OpenAI & DeepSeek: so sánh kỹ thuật chuyên sâu cho các nhà phát triển API.
Moonshot Kimi: chuyên gia coding agent
Mô hình chính:
- Kimi K2.6: giá input theo tầng 0,16–2,00 đô la/triệu token ở các dải 8K, 32K, 64K và 128K.
- Cache-hit: 0,07 đô la/triệu token.
- Output: khoảng 2,50 đô la/triệu token ở dải giữa.
Kimi K2.6 nổi bật nhờ cache-hit rẻ. Nếu workflow tái sử dụng prompt hệ thống lớn qua nhiều lượt, chi phí input thực tế có thể giảm mạnh.
Nên dùng Kimi K2.6 khi nào?
Chọn Kimi nếu bạn đang xây:
- Coding agent kiểu Claude Code.
- Agent gọi tool nhiều bước.
- Chatbot hỗ trợ khách hàng có system prompt dài và ổn định.
- Pipeline retrieval có prefix ngữ cảnh lặp lại.
Ví dụ cấu trúc prompt nên cache:
[System prompt cố định]
- Vai trò agent
- Quy tắc gọi tool
- Coding convention
- Format output
- Chính sách bảo mật
[Context thay đổi]
- File liên quan
- Ticket hiện tại
- Yêu cầu user
Phần system prompt càng ổn định, cache-hit càng có giá trị.
Không nên dùng khi nào?
Tránh Kimi nếu:
- Prefix thay đổi liên tục theo từng request.
- Bạn cần dự báo chi phí đơn giản.
- Prompt thường xuyên vượt các mốc tầng 32K, 64K hoặc 128K.
Giá theo tầng có thể khiến cùng một loại truy vấn đắt hơn nhiều khi context dài hơn.
Đọc thêm: Liệu giá API Kimi K2 có thực sự đáng giá như được ca ngợi cho các nhà phát triển vào năm 2026.
Zhipu GLM: lựa chọn cho reasoning có cấu trúc
Mô hình chính:
- GLM-5: 1,00 đô la đầu vào / 3,20 đô la đầu ra, ngữ cảnh 200K.
- GLM-5.1: 0,98 đô la đầu vào / 3,08 đô la đầu ra, ngữ cảnh 200K.
Giá được tham chiếu từ tổng quan giá chính thức của Z.AI.
GLM-5 tăng giá khoảng 30% so với GLM-4.7, trái ngược với xu hướng giảm giá chung. Điều này phản ánh định vị của Zhipu: không phải rẻ nhất, nhưng mạnh ở reasoning có cấu trúc.
Nên dùng GLM-5 khi nào?
Chọn GLM-5 nếu workload của bạn là:
- Toán học.
- Reasoning hình thức.
- Phân tích tài chính.
- Tóm tắt pháp lý.
- Suy luận khoa học.
- Agent nhiều bước cần trace reasoning rõ.
Ví dụ:
Input:
- Báo cáo tài chính
- Giả định phân tích
- Câu hỏi cần kết luận có căn cứ
Output:
- Các bước suy luận
- Kết luận
- Rủi ro
- Điều kiện làm thay đổi kết luận
Không nên dùng khi nào?
Tránh GLM-5 nếu:
- Bạn tối ưu chi phí thô.
- Workload chỉ là tóm tắt hoặc sinh nội dung đơn giản.
- Sai số nhỏ không gây hậu quả lớn.
Đọc thêm:
- GLM-5 so với DeepSeek V3 so với GPT-5: tốc độ, chi phí và so sánh thực tế cho nhà phát triển
- GLM-5.1 so với Claude, GPT, Gemini, DeepSeek
Ma trận chọn mô hình theo workload
| Workload | Mô hình nên chọn | Lý do |
|---|---|---|
| Tạo code, output dài | DeepSeek V4-Pro | 0,87 đô la/triệu token đầu ra |
| RAG tài liệu dài, >300K context | Xiaomi MiMo V2.5 Pro | Ngữ cảnh 1 triệu token, giá cố định |
| Coding agent có system prompt ổn định | Kimi K2.6 | Cache-hit 0,07 đô la/triệu token |
| Hỗ trợ khách hàng đa ngôn ngữ | Alibaba Qwen3 Max | Hiệu suất phi tiếng Anh mạnh |
| Toán học, reasoning hình thức, phân tích có cấu trúc | Zhipu GLM-5 | Chất lượng reasoning tốt |
Chiến lược triển khai thực tế
1. Định tuyến hai mô hình
Một pattern phổ biến là route phần lớn traffic sang mô hình rẻ, giữ mô hình mạnh hơn cho case khó.
Ví dụ:
function routeLLMRequest({ inputTokens, taskType, requiresReasoning }) {
if (inputTokens > 300_000) {
return "mimo-v2.5-pro";
}
if (requiresReasoning || taskType === "formal_analysis") {
return "glm-5";
}
return "deepseek-v4-pro";
}
Cách này giúp giảm chi phí mà không cần thay toàn bộ stack.
2. Tách workload ngữ cảnh ngắn và dài
Nếu bạn có cả prompt ngắn và tài liệu dài:
- Prompt ngắn, output dài: dùng DeepSeek.
- Prompt rất dài: dùng MiMo.
- Prompt hệ thống ổn định, nhiều lượt agent: cân nhắc Kimi.
3. Tối ưu cache prefix
Bất kể dùng mô hình nào, hãy kiểm tra prompt hệ thống:
- Đưa phần ổn định lên đầu.
- Tránh chèn timestamp, UUID hoặc dữ liệu thay đổi vào prefix.
- Tách context động khỏi system prompt.
- Reuse cùng instruction block giữa các request.
Ví dụ không tối ưu:
System:
Bạn là coding agent.
Request ID: 9f3a...
Timestamp: 2026-05-27T10:03:22Z
Quy tắc gọi tool...
Ví dụ tốt hơn:
System:
Bạn là coding agent.
Quy tắc gọi tool...
Coding convention...
Output format...
User metadata:
Request ID: 9f3a...
Timestamp: 2026-05-27T10:03:22Z
Ghi chú về chất lượng và benchmark
Giá rẻ không có ý nghĩa nếu mô hình không hoàn thành được task. Theo Artificial Analysis, năm mô hình trong bài nằm trong khoảng chênh lệch 5–10 điểm phần trăm trên nhiều benchmark công khai.
Khác biệt đáng chú ý:
- DeepSeek V4-Pro: mạnh về coding, SWE-bench Pro khoảng 55%, GPQA khoảng 90%. Có khoảng cách nhỏ với GPT-5.5 trong một số tác vụ agent dài.
- MiMo V2.5 Pro: mạnh về truy xuất ngữ cảnh dài, với độ chính xác “needle” cao ở vùng 800K token; coding ở mức trung bình.
- Qwen3 Max: mạnh về tác vụ phi tiếng Anh và production tổng quát.
- Kimi K2.6: mạnh về tuân thủ định dạng tool call, đặc biệt với parallel tool call.
- GLM-5: mạnh nhất trong danh sách về reasoning chuỗi suy luận.
Khuyến nghị thực tế: chạy benchmark nội bộ ít nhất 100 mẫu trước khi migrate.
Checklist benchmark:
[ ] 100 request thật hoặc gần thật
[ ] Đo input token, output token
[ ] Đo latency p50/p95
[ ] Chấm điểm correctness
[ ] Chấm điểm format/tool_call
[ ] Tính chi phí theo từng provider
[ ] Kiểm tra lỗi edge case
Kiểm tra cả năm mô hình với Apidog
Một triển khai production đa mô hình cần workflow kiểm thử đa mô hình. Apidog có thể dùng để kiểm thử cả năm API Trung Quốc trong cùng một workspace, vì cả năm đều chấp nhận request kiểu OpenAI Chat Completions với một số khác biệt nhỏ về tương thích.
Quy trình gợi ý:
-
Tạo một environment cho từng nhà cung cấp:
api.deepseek.complatform.xiaomimimo.com- Alibaba Cloud Model Studio
api.moonshot.cnopen.bigmodel.cn
Import schema OpenAI Chat Completion một lần.
Với mỗi environment, chỉ đổi base URL và API key.
Chạy cùng một test case trên cả năm mô hình.
-
So sánh:
- response quality
- latency
- token usage
- lỗi format
tool_calls
Bật JSON Schema validation cho
tool_callsđể phát hiện khác biệt format giữa các provider.
Ví dụ JSON Schema đơn giản cho tool call:
{
"type": "object",
"required": ["id", "type", "function"],
"properties": {
"id": { "type": "string" },
"type": { "const": "function" },
"function": {
"type": "object",
"required": ["name", "arguments"],
"properties": {
"name": { "type": "string" },
"arguments": { "type": "string" }
}
}
}
}
Bạn có thể tải Apidog, nhập test case và có một so sánh năm chiều trong thời gian ngắn. Đây cũng là workflow được khuyến nghị trong các phân tích riêng:
Cuộc chiến giá sẽ đi về đâu tiếp theo?
Mức giá sàn đã thay đổi hai lần trong tháng 5. Có thể sẽ còn thêm động thái trước khi quý 3 kết thúc:
- Qwen có thể phản ứng. Alibaba thường không cắt giá đầu tiên, nhưng có xu hướng theo sau sau vài tuần.
- GLM có thể điều chỉnh. Mức tăng 30% của Zhipu đối với GLM-5 đang đi ngược xu hướng thị trường.
- Kimi có thể đơn giản hóa giá. Định giá ngữ cảnh theo tầng ngày càng kém hấp dẫn so với giá cố định kiểu MiMo.
Việc nên làm tiếp theo
Nếu bạn đang vận hành LLM trong production, hãy làm ba việc:
- Chọn ba workload tốn tiền nhất và map chúng vào ma trận ở trên.
- Benchmark ít nhất một mô hình thay thế trong tuần này, thay vì chờ hóa đơn tăng.
- Chuẩn hóa prompt prefix và test cache-hit, vì đây là tối ưu chi phí áp dụng được cho hầu hết provider.
Mức giá sàn chưa dừng giảm. Hãy thiết kế hệ thống của bạn để có thể route, benchmark và thay mô hình nhanh.

Top comments (0)