DEV Community

Cover image for Chi Phí Sử Dụng Xiaomi MiMo V2.5 Năm 2026 Là Bao Nhiêu?
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Chi Phí Sử Dụng Xiaomi MiMo V2.5 Năm 2026 Là Bao Nhiêu?

Giá API Xiaomi MiMo V2.5 đã được đưa về mức cố định: 1 USD / 1 triệu token đầu vào3 USD / 1 triệu token đầu ra kể từ ngày 27/5/2026. Xiaomi cho biết đây là thay đổi vĩnh viễn, không phải khuyến mãi. Điểm quan trọng với developer: phí ngữ cảnh dài trước đây áp dụng cho prompt trên 256K token đã bị loại bỏ, nên bạn có thể dùng cửa sổ ngữ cảnh 1M token với một bảng giá duy nhất.

Dùng thử Apidog ngay hôm nay

Tóm tắt nhanh

  • Giá mới của Xiaomi MiMo V2.5 Pro: 1,00 USD đầu vào, 3,00 USD đầu ra, 0,20 USD token cache cho mỗi 1 triệu token.
  • Cửa sổ ngữ cảnh: 1M token.
  • Không còn phụ phí ngữ cảnh dài: prompt trên 256K token không còn bị nhân hệ số giá.
  • “Giảm tới 99%” chủ yếu áp dụng cho workload ngữ cảnh dài.
  • Gói Token: hạn mức được tăng 5–8 lần và tín dụng đã dùng trong thời gian hiệu lực được hoàn lại.
  • Bối cảnh thị trường: Xiaomi là phòng thí nghiệm Trung Quốc thứ hai trong tuần công bố giảm giá vĩnh viễn cho mô hình cấp cao, sau DeepSeek V4-Pro.

Xiaomi đã thay đổi gì vào ngày 27/5/2026?

Theo thông báo cập nhật giá chính thức, Xiaomi áp dụng thay đổi từ 00:00 giờ Bắc Kinh ngày 27/5, tức 16:00 UTC ngày 26/5.

1. Một bảng giá cho mọi độ dài ngữ cảnh

Biểu giá MiMo V2.5 cũ dùng nhiều bậc:

  • Giá cơ bản cho prompt đến 32K token đầu vào.
  • Giá cao hơn cho 32K–256K token.
  • Giá cao hơn nữa cho prompt trên 256K token.

Biểu giá mới chỉ còn một mức:

Input:  $1.00 / 1M token
Output: $3.00 / 1M token
Cache:  $0.20 / 1M token
Enter fullscreen mode Exit fullscreen mode

Điều này đặc biệt quan trọng nếu bạn đang xây dựng:

  • RAG trên tài liệu dài.
  • Agent đọc toàn bộ repository.
  • Hệ thống phân tích hợp đồng, log, báo cáo, hồ sơ kỹ thuật.
  • Pipeline tóm tắt hoặc kiểm tra tài liệu hàng loạt.

2. Đây là giá niêm yết mới, không phải khuyến mãi

Thông báo của Xiaomi dùng cụm “giảm giá vĩnh viễn” và không nêu ngày hết hạn. Vì vậy, khi lập ngân sách hoặc tính chi phí production, bạn nên coi đây là bảng giá mặc định mới.

3. Gói Token được điều chỉnh lại

Nếu bạn đang dùng Gói Token trả trước của Xiaomi:

  • Số dư tín dụng được tăng 5–8 lần.
  • Tín dụng đã dùng trong thời gian hiệu lực được hoàn lại.
  • Thời gian hiệu lực của gói không được gia hạn.

Bảng giá mới của MiMo V2.5

Giá tính theo USD cho mỗi 1 triệu token:

Mô hình Đầu vào Đầu ra Đã lưu cache Ngữ cảnh
MiMo V2.5 Pro $1.00 $3.00 $0.20 1M token
MiMo V2 Flash ~$0.10 ~$0.40 $0.02 256K token

Một vài điểm cần lưu ý khi tính chi phí:

  • Cache của MiMo V2.5 Pro rẻ hơn input thường 5 lần: $0.20/M so với $1.00/M.
  • Mức cache này không sâu bằng DeepSeek, nhưng vẫn hữu ích nếu bạn dùng prompt hệ thống ổn định.
  • Cửa sổ 1M token là lợi thế chính. Nhiều mô hình cao cấp khác vẫn giới hạn quanh 200K–400K token.
  • Thông báo có nhắc đến V2.5 Omni và TTS, nhưng không liệt kê chi tiết trong bảng này. Hãy kiểm tra riêng trên nền tảng Xiaomi nếu bạn dùng các biến thể đó.

Nếu cần đối chiếu với giá V2-Pro trước đây, xem hướng dẫn: định giá MiMo V2-Pro & Omni.

MiMo V2.5 có gì đáng chú ý ngoài giá?

Đợt công bố ngày 27/5 tập trung vào giá, nhưng V2.5 cũng là bản nâng cấp so với V2-Pro.

Các thay đổi đáng chú ý:

  • Ngữ cảnh dài ổn định hơn: V2.5 Pro vẫn hỗ trợ cửa sổ lý thuyết 1M token, với chất lượng truy xuất tốt hơn trong vùng 200K–800K token.
  • Gọi tool tốt hơn: V2-Pro từng gặp lỗi JSON trong một số phản hồi streaming khi gọi tool song song. V2.5 giảm lỗi này, nhưng bạn vẫn nên validate JSON Schema.
  • Dữ liệu huấn luyện mới hơn: V2.5 được huấn luyện với dữ liệu đến hết Q1/2026.

Với developer, điểm thực tế là: bạn có thể thử lại các workflow từng bị loại vì chi phí ngữ cảnh dài quá cao.

So sánh MiMo V2.5 với các API khác

Mô hình Đầu vào ($/MTok) Đầu ra ($/MTok) Ngữ cảnh
Xiaomi MiMo V2.5 Pro $1.00 $3.00 1M
DeepSeek V4-Pro $0.435 $0.87 128K
GPT-5.5 $5.00 $30.00 200K
Claude Opus 4.7 $3.00 $15.00 200K
Gemini 3.5 Flash ~$1.50 ~$9.00 1M

Cách đọc bảng này:

  • Nếu bạn chỉ tối ưu giá/token, DeepSeek V4-Pro vẫn rẻ hơn.
  • Nếu bạn cần ngữ cảnh 1M token, MiMo V2.5 Pro trở thành lựa chọn rất cạnh tranh.
  • So với GPT-5.5, MiMo V2.5 rẻ hơn khoảng 5 lần ở input và 10 lần ở output, với hiệu suất benchmark tương đương trong một số tác vụ theo Artificial Analysis.

Để xem bối cảnh DeepSeek, đọc thêm: DeepSeek V4-Pro Giảm giá 75% Vĩnh viễn.

Ví dụ tính chi phí cho 3 workload

Dưới đây là cách tính nhanh để bạn ước lượng ngân sách.

1. RAG tài liệu dài trên PDF doanh nghiệp

Giả định:

50.000 truy vấn / ngày
800K token ngữ cảnh / truy vấn
1K token đầu ra / truy vấn
Enter fullscreen mode Exit fullscreen mode

Với giá mới:

Input/ngày  = 50.000 × 800.000 = 40.000.000.000 token
Output/ngày = 50.000 × 1.000   = 50.000.000 token

Input cost/ngày  = 40.000M × $1.00 = $40.000
Output cost/ngày = 50M × $3.00     = $150
Enter fullscreen mode Exit fullscreen mode

Với workload dạng này, thay đổi lớn nhất là bạn không còn phải trả phụ phí ngữ cảnh dài. Các pipeline trước đây phải chunk, summarize nhiều tầng hoặc giảm tài liệu đầu vào có thể được thiết kế lại đơn giản hơn.

2. Agent review code

Giả định:

5.000 pull request / ngày
30K token repository context / request
2K token comment output / request
Enter fullscreen mode Exit fullscreen mode

MiMo V2.5 phù hợp nếu bạn muốn agent đọc nhiều file cùng lúc, thay vì chỉ gửi diff ngắn. Tuy nhiên, vẫn nên benchmark chất lượng review với repo thật trước khi thay thế mô hình hiện tại.

3. Chatbot hỗ trợ khách hàng

Giả định:

200.000 lượt / ngày
4K token system prompt
300 token phản hồi
Enter fullscreen mode Exit fullscreen mode

Workload này hưởng lợi từ prompt caching nếu system prompt ổn định. Nhưng nếu yêu cầu latency rất thấp, bạn vẫn cần test thời gian token đầu tiên trước khi chuyển production.

Tối ưu prompt caching

MiMo V2.5 tính token cache ở mức:

$0.20 / 1M cached input token
Enter fullscreen mode Exit fullscreen mode

So với input thường:

$1.00 / 1M input token
Enter fullscreen mode Exit fullscreen mode

Ví dụ:

System prompt: 6.000 token
User input trung bình: 250 token
Output trung bình: 600 token
Lưu lượng: 80.000 lượt / ngày
Cache hit trên system prompt: 60%
Enter fullscreen mode Exit fullscreen mode

Không cache:

80.000 × 6.250 × $1 / 1.000.000 = $500/ngày cho input
Enter fullscreen mode Exit fullscreen mode

Có cache 60% trên system prompt:

80.000 × (250 × $1 + 6.000 × (0,6 × $0,20 + 0,4 × $1)) / 1.000.000
≈ $271/ngày
Enter fullscreen mode Exit fullscreen mode

Cách tăng cache hit:

  • Giữ system prompt cố định.
  • Không chèn timestamp, request ID hoặc dữ liệu thay đổi vào phần prefix.
  • Đặt context truy xuất theo thứ tự ổn định.
  • Tách phần instruction ổn định khỏi phần user-specific.
  • Log cache hit/miss nếu API hoặc gateway của bạn hỗ trợ.

Đọc thêm về cơ chế này tại: Cách lưu cache lời nhắc giúp tăng hiệu suất LLM và giảm chi phí.

Khi nào nên dùng MiMo V2.5?

Nên cân nhắc dùng

MiMo V2.5 phù hợp với các workload cần nhiều ngữ cảnh:

  • RAG trên tài liệu dài.
  • Agent phân tích codebase lớn.
  • Tái cấu trúc hoặc review toàn repository.
  • Phân tích hợp đồng, báo cáo tài chính, tài liệu kỹ thuật.
  • Batch processing với prompt prefix lặp lại.

Cần cân nhắc kỹ

MiMo V2.5 có thể không phải lựa chọn tốt nhất nếu:

  • Bạn cần latency cực thấp cho autocomplete hoặc chat realtime.
  • Bạn cần SLA chặt chẽ từ nhà cung cấp đã có lịch sử vận hành dài.
  • Bạn phụ thuộc nặng vào function calling song song và JSON streaming.
  • Bạn có yêu cầu nghiêm ngặt về vị trí dữ liệu.

Một số lưu ý triển khai:

  • API được định tuyến qua hạ tầng của Xiaomi tại Trung Quốc.
  • API bên thứ nhất của Xiaomi có lịch sử vận hành ngắn hơn các nhà cung cấp lâu năm tại Hoa Kỳ.
  • Có thể định tuyến qua OpenRouter hoặc aggregator khác nếu bạn cần lớp trừu tượng bổ sung.
  • Khả năng tương thích OpenAI ở mức schema nhìn chung tốt, nhưng vẫn cần test kỹ tool_calls.

Để biết bối cảnh ra mắt V2-Pro, xem: Xiaomi Vừa Ra Mắt Mô Hình AI Riêng, Và Nó Miễn Phí Trên OpenRouter. Nếu quan tâm gói miễn phí, xem thêm: chương trình 100T token miễn phí Xiaomi MiMo Orbit.

Cách kiểm tra MiMo V2.5 với Apidog

Trước khi chuyển traffic production, bạn nên kiểm tra:

  • Format request/response.
  • Streaming.
  • tool_calls.
  • JSON Schema.
  • Regression giữa prompt cũ và prompt mới.
  • So sánh với mô hình hiện tại.

Với Apidog, bạn có thể gửi request Chat Completions tới endpoint:

https://platform.xiaomimimo.com/v1
Enter fullscreen mode Exit fullscreen mode

Quy trình kiểm thử cơ bản:

  1. Tạo một request Chat Completions theo schema OpenAI.
  2. Thay base_url thành endpoint MiMo.
  3. Thêm API key MiMo vào header.
  4. Chạy bộ prompt mẫu của bạn.
  5. Lưu response chuẩn làm baseline.
  6. Validate JSON Schema cho các response có tool_calls.
  7. Chạy lại cùng bộ input trên GPT-5.5, Claude hoặc DeepSeek để so sánh.

Ví dụ request dạng OpenAI-compatible:

curl https://platform.xiaomimimo.com/v1/chat/completions \
  -H "Authorization: Bearer $MIMO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là trợ lý kỹ thuật, trả lời ngắn gọn và chính xác."
      },
      {
        "role": "user",
        "content": "Tóm tắt tài liệu này và liệt kê các rủi ro kỹ thuật chính."
      }
    ],
    "temperature": 0.2
  }'
Enter fullscreen mode Exit fullscreen mode

Bạn có thể tải xuống Apidog, nhập schema Chat Completions, đổi base URL và tạo bộ kiểm thử V2.5 trong vài phút. Quy trình tương tự đã được mô tả trong: Cách sử dụng API DeepSeek V4.

Cách đánh giá trước khi chuyển production

Một checklist thực tế:

1. Chọn tập mẫu

Lấy khoảng 100–300 request đại diện:

  • Request ngắn.
  • Request dài.
  • Request có tool calling.
  • Request có output JSON.
  • Request dễ gây hallucination.
  • Request có tài liệu hoặc codebase lớn.

2. Chạy song song nhiều mô hình

So sánh MiMo V2.5 với mô hình hiện tại của bạn:

MiMo V2.5 Pro
DeepSeek V4-Pro
GPT-5.5
Claude Opus 4.7
Gemini 3.5 Flash
Enter fullscreen mode Exit fullscreen mode

Chấm điểm theo các tiêu chí:

  • Độ chính xác.
  • Tuân thủ format.
  • Latency.
  • Chi phí.
  • Tỷ lệ lỗi JSON.
  • Chất lượng tool call.
  • Tỷ lệ cần fallback.

3. Thiết kế fallback

Không nên chuyển 100% traffic ngay. Một rollout an toàn hơn:

1% traffic → 5% → 20% → 50% → 100%
Enter fullscreen mode Exit fullscreen mode

Thêm fallback nếu:

  • Response sai schema.
  • Tool arguments parse lỗi.
  • Timeout.
  • Output bị thiếu trường bắt buộc.
  • Model trả lời ngoài format yêu cầu.

4. Theo dõi chi phí theo token

Log tối thiểu:

{
  "model": "mimo-v2.5-pro",
  "input_tokens": 123456,
  "output_tokens": 2048,
  "cached_tokens": 100000,
  "latency_ms": 3400,
  "request_type": "long_doc_rag"
}
Enter fullscreen mode Exit fullscreen mode

Sau đó tính chi phí theo từng loại workload, không chỉ theo tổng hóa đơn.

Cuộc chiến giá LLM năm 2026

MiMo V2.5 là một phần của xu hướng giảm giá API LLM trong năm 2026:

  • DeepSeek giảm giá V4-Pro vĩnh viễn xuống còn 1/4 giá niêm yết.
  • Kimi K2 đã giảm giá trước đó trong Q1.
  • OpenAI O3 giảm 80% vào tháng 2.
  • Xiaomi loại bỏ phụ phí ngữ cảnh dài cho MiMo V2.5.

Các bài đọc liên quan:

Điều này ảnh hưởng thế nào đến roadmap của bạn?

Nếu bạn từng trì hoãn các tính năng cần ngữ cảnh dài vì chi phí, hãy tính lại. MiMo V2.5 làm thay đổi bài toán ngân sách cho:

  • RAG tài liệu dài.
  • Agent đọc toàn bộ repository.
  • Phân tích hồ sơ doanh nghiệp.
  • Tóm tắt log hoặc tài liệu hàng loạt.
  • Workflow cần prompt prefix lớn và lặp lại.

Ba việc nên làm ngay:

  1. Tính lại chi phí cho 3 workload tốn token nhất của bạn theo giá mới.
  2. Chạy benchmark 100 mẫu giữa MiMo V2.5 Pro và mô hình hiện tại.
  3. Thiết lập regression test bằng Apidog để mỗi lần giá hoặc model thay đổi, bạn có thể đánh giá trong vài giờ thay vì vài tuần.

Mức giá sàn cho ngữ cảnh 1M token đã thay đổi. Nếu hệ thống của bạn phụ thuộc vào tài liệu dài hoặc codebase lớn, đây là thời điểm tốt để kiểm thử lại kiến trúc.

Top comments (0)