DEV Community

Cover image for Cách Sử Dụng MiniMax M3 Miễn Phí: Trọng Số Mở và Truy Cập Giá Rẻ
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Cách Sử Dụng MiniMax M3 Miễn Phí: Trọng Số Mở và Truy Cập Giá Rẻ

Hầu hết các mô hình tiên tiến vẫn yêu cầu bạn trả tiền qua API: Claude Opus, GPT, Gemini Pro, v.v. MiniMax M3 đi theo hướng khác: đây là mô hình open-weight, được công bố ngày 1 tháng 6 năm 2026. Khi trọng lượng được phát hành công khai, bạn có thể tự chạy mô hình và không phải trả phí theo token cho nhà cung cấp API.

Dùng thử Apidog ngay hôm nay

Điểm cần nói rõ: tại thời điểm bài viết này, MiniMax đã hứa phát hành trọng lượng M3, nhưng chúng chưa có trên Hugging Face. Vì vậy, tự host miễn phí là thứ bạn có thể chuẩn bị ngay, chưa phải thứ có thể triển khai ngay chiều nay. Nếu bạn muốn xem tổng quan mô hình trước, đọc thêm tại MiniMax M3 là gì.

Tóm tắt nhanh: M3 hỗ trợ cửa sổ ngữ cảnh lên tới 1.000.000 token, khả năng lập trình nâng cao và đầu vào multimodal bản địa. Bài đăng ra mắt chính thức nằm ở thông báo MiniMax M3. Phần dưới đây tập trung vào cách truy cập M3 với chi phí thấp hoặc miễn phí.

Cách 1: Tự chạy trọng lượng mở

Đây là cách gần nhất với “miễn phí” theo nghĩa kỹ thuật. Khi MiniMax phát hành trọng lượng, bạn có thể tải về, chạy trên phần cứng của mình hoặc GPU thuê, rồi gọi mô hình qua endpoint nội bộ. Khi đó bạn không trả phí theo token cho MiniMax.

Bạn vẫn phải trả chi phí hạ tầng:

  • GPU cục bộ: chi phí điện và phần cứng.
  • GPU thuê: chi phí theo giờ.
  • CPU hoặc phần cứng tiêu dùng: chỉ khả thi nếu có bản lượng tử hóa phù hợp.

Khi trọng lượng xuất hiện trên Hugging Face, hãy kiểm tra định dạng mô hình trước khi chọn stack inference:

  • vLLM: phù hợp để dựng endpoint tương thích OpenAI với throughput cao. Xem tài liệu vLLM.
  • SGLang: phù hợp với tác vụ nhiều lượt và generation có cấu trúc.
  • llama.cpp: phù hợp nếu có bản GGUF lượng tử hóa và bạn muốn chạy trên máy cá nhân hoặc CPU.

Ví dụ cấu trúc triển khai dự kiến với vLLM:

python -m vllm.entrypoints.openai.api_server \
  --model <huggingface-org/minimax-m3-model> \
  --host 0.0.0.0 \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

Sau đó bạn có thể gọi endpoint tương thích OpenAI:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMax-M3",
    "messages": [
      {
        "role": "user",
        "content": "Viết một hàm JavaScript debounce đơn giản."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Lưu ý quan trọng về phần cứng: MiniMax chưa công bố số lượng tham số của M3. Vì vậy, mọi con số VRAM cụ thể ở thời điểm này đều chỉ là phỏng đoán. Yêu cầu thực tế phụ thuộc vào kích thước trọng lượng, định dạng phát hành và mức lượng tử hóa. Khi model card xuất hiện trên Hugging Face, hãy dùng thông tin đó làm nguồn chính.

Nếu bạn muốn thực hành ngay với một mô hình open-weight đã có thể tải, quy trình tương tự áp dụng cho Qwen. Xem hướng dẫn cách sử dụng Qwen 3.7 miễn phí.

Cách 2: Dùng API được lưu trữ với chi phí thấp

Nếu bạn không muốn quản lý GPU, API chính thức của MiniMax là cách nhanh nhất để bắt đầu. Cách này không miễn phí, nhưng giảm đáng kể phần vận hành hạ tầng.

MiniMax cung cấp các gói token đăng ký:

Gói Giá Token mỗi tháng
Plus $20/tháng ~1.7B
Max $50/tháng ~5.1B
Ultra $120/tháng ~9.8B

Gói Plus $20/tháng là điểm khởi đầu thực tế cho thử nghiệm, prototype và workload nhẹ. Kiểm tra tổng quan API MiniMax để xác nhận giá và phân bổ token mới nhất.

API hosted phù hợp khi:

  • workload thấp hoặc bùng nổ;
  • bạn không muốn thuê GPU chạy nhàn rỗi;
  • bạn cần thử ngữ cảnh lớn mà chưa muốn tự cấp phát bộ nhớ;
  • bạn muốn có endpoint sẵn sàng ngay.

Thông tin cấu hình cơ bản:

Base URL: https://api.minimax.io/v1
Model ID: MiniMax-M3
Enter fullscreen mode Exit fullscreen mode

Ví dụ request theo kiểu OpenAI-compatible:

curl https://api.minimax.io/v1/chat/completions \
  -H "Authorization: Bearer $MINIMAX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMax-M3",
    "messages": [
      {
        "role": "user",
        "content": "Tóm tắt file log này và chỉ ra lỗi chính."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Chi tiết thiết lập API được trình bày trong cách sử dụng API MiniMax M3.

Cách 3: Kiểm tra tín dụng dùng thử và playground

Hiện chưa có tài liệu xác nhận một free tier API cố định cho M3. Vì vậy, đừng mặc định rằng bạn có quota miễn phí vĩnh viễn.

Việc nên làm:

  1. Đăng nhập nền tảng MiniMax.
  2. Mở trang billing hoặc usage.
  3. Kiểm tra tài khoản có trial credit hay khuyến mãi hiện tại không.
  4. Nếu có web playground, dùng nó để test prompt trước khi viết code.
  5. Khi prompt ổn định, chuyển sang API hosted hoặc self-host.

Hãy xem trial credit như công cụ đánh giá mô hình, không phải chiến lược production. Khi đã xác nhận M3 phù hợp use case, chọn một trong hai hướng dài hạn:

  • tự host khi trọng lượng được phát hành;
  • dùng API hosted nếu workload thấp hoặc không muốn vận hành GPU.

Cách 4: Theo dõi nhà cung cấp bên thứ ba sau khi trọng lượng được phát hành

Khi trọng lượng M3 công khai, các nhà cung cấp inference bên thứ ba có thể bắt đầu host mô hình. Các nền tảng kiểu OpenRouter hoặc nhà cung cấp GPU độc lập thường thêm mô hình open-weight mới trong vài ngày.

Đây có thể là cách rẻ hơn API chính thức, nhưng cần kiểm tra kỹ:

  • giá theo token;
  • rate limit;
  • latency theo khu vực;
  • chính sách lưu dữ liệu;
  • khả năng tương thích OpenAI API;
  • độ ổn định endpoint.

Không route dữ liệu nhạy cảm qua bên thứ ba nếu bạn chưa đọc chính sách dữ liệu của họ.

Bối cảnh này nằm trong cuộc cạnh tranh lớn hơn giữa các phòng thí nghiệm AI Trung Quốc: phát hành mô hình open-weight và giảm giá để thu hút developer. Phân tích chi tiết có trong cuộc chiến giá LLM của Trung Quốc năm 2026.

Kiểm tra endpoint M3 trước khi tích hợp

Dù bạn dùng self-host, API chính thức hay provider bên thứ ba, hãy test endpoint trước khi tích hợp vào app. Hai endpoint cùng nói “OpenAI-compatible” không có nghĩa chúng xử lý token, latency và lỗi giống nhau.

MiniMax M3 API testing

Một cách thực tế là tạo cùng một request trong Apidog, rồi chạy song song giữa endpoint local và hosted.

Ví dụ tạo hai environment:

Local
BASE_URL=http://localhost:8000/v1
MODEL_ID=MiniMax-M3
API_KEY=

Hosted
BASE_URL=https://api.minimax.io/v1
MODEL_ID=MiniMax-M3
API_KEY=<your_minimax_api_key>
Enter fullscreen mode Exit fullscreen mode

Request mẫu:

POST {{BASE_URL}}/chat/completions
Authorization: Bearer {{API_KEY}}
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Body:

{
  "model": "{{MODEL_ID}}",
  "messages": [
    {
      "role": "system",
      "content": "Bạn là trợ lý lập trình ngắn gọn."
    },
    {
      "role": "user",
      "content": "Viết ví dụ Node.js gọi endpoint OpenAI-compatible."
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

Cách test nên gồm:

  • cùng prompt;
  • cùng temperature;
  • cùng max tokens;
  • đo latency;
  • so sánh chất lượng output;
  • kiểm tra lỗi auth, rate limit và timeout;
  • lưu request vào collection để chạy lại.

Bạn có thể Tải Apidog và tạo request mới đến endpoint của mình. Workflow này cũng dùng được với các mô hình khác, ví dụ như trong cách sử dụng DeepSeek V4 Pro với Cursor.

Miễn phí hay trả phí: nên chọn cách nào?

Không có một lựa chọn đúng cho mọi trường hợp. Chọn theo workload, yêu cầu riêng tư và khả năng vận hành.

Trường hợp sử dụng Cách phù hợp Lý do
Dự án cá nhân, gọi không thường xuyên Gói Plus hosted hoặc trial credit Rẻ, không cần vận hành GPU
Học tập và prototype Self-host khi có trọng lượng Không trả phí/token, kiểm soát đầy đủ
Agent coding ở quy mô lớn Self-host trên GPU thuê Khối lượng cao ổn định có thể rẻ hơn trả theo token
Tác vụ 1 triệu token không thường xuyên API hosted Không cần tự cấp phát bộ nhớ lớn
Workload nhạy cảm về quyền riêng tư Self-host Prompt không rời khỏi hạ tầng của bạn

Quy tắc đơn giản:

  • Low volume hoặc bursty workload → dùng API hosted.
  • High volume ổn định → cân nhắc self-host khi trọng lượng được phát hành.
  • Dữ liệu nhạy cảm → ưu tiên self-host.
  • Chưa chắc mô hình có phù hợp không → dùng trial credit hoặc playground trước.

Câu hỏi thường gặp

MiniMax M3 có thực sự miễn phí không?

Có thể, theo nghĩa bạn có thể tự chạy mô hình sau khi trọng lượng được phát hành công khai. Khi đó bạn không trả phí theo token cho MiniMax. Tuy nhiên, bạn vẫn trả chi phí hạ tầng: điện, GPU cục bộ hoặc GPU thuê.

Trọng lượng M3 đã được phát hành chưa?

Tại thời điểm viết bài này, chưa. MiniMax đã cam kết phát hành trọng lượng và cho biết chúng sẽ có trong vài ngày sau ngày ra mắt 1 tháng 6. Hãy kiểm tra kênh chính thức và trang Hugging Face của mô hình để biết trạng thái thực tế.

Tôi cần phần cứng nào để tự host M3?

Chưa thể kết luận chính xác vì MiniMax chưa công bố số lượng tham số và trọng lượng chưa được phát hành. Khi model card xuất hiện trên Hugging Face, hãy xem cấu hình khuyến nghị tại đó. Bản 4-bit qua llama.cpp, nếu có, sẽ cần ít bộ nhớ hơn nhiều so với chạy full precision qua vLLM.

Có API key miễn phí không?

Chưa có tài liệu xác nhận free tier cố định cho API hosted. Lựa chọn rẻ đã biết là gói Plus $20/tháng với khoảng 1.7B token. Bạn cũng nên kiểm tra trial credit trong tài khoản và theo dõi provider bên thứ ba sau khi trọng lượng open-weight được phát hành.

M3 khác gì so với Qwen hoặc DeepSeek về cách dùng miễn phí?

Cách self-host về cơ bản giống nhau: tải trọng lượng, chọn inference stack, chạy endpoint tương thích OpenAI, rồi trỏ app vào endpoint đó. Qwen đã có thể tải ngay, nên nếu muốn bắt đầu thực hành trước, xem cách sử dụng Qwen 3.7 miễn phí. Bối cảnh cạnh tranh rộng hơn nằm trong cuộc chiến giá LLM của Trung Quốc năm 2026.

Có thể dùng M3 với Cursor không?

Có, miễn là bạn có endpoint tương thích OpenAI, dù là self-host hay hosted. Cách làm thường là:

  1. đặt base URL;
  2. nhập API key nếu endpoint yêu cầu;
  3. chọn model ID MiniMax-M3;
  4. test một prompt nhỏ trước;
  5. dùng cho coding workflow.

Cách tiếp cận này tương tự hướng dẫn cách sử dụng DeepSeek V4 Pro với Cursor.

Tóm tắt

MiniMax M3 có tiềm năng dùng miễn phí vì đây là mô hình open-weight. Tuy nhiên, cho đến khi trọng lượng xuất hiện công khai, lựa chọn thực tế hiện tại là API hosted, trial credit nếu tài khoản có, hoặc chuẩn bị sẵn stack self-host.

Nếu bạn muốn sẵn sàng khi trọng lượng được phát hành:

  1. chọn stack inference: vLLM, SGLang hoặc llama.cpp;
  2. chuẩn bị máy local hoặc GPU thuê;
  3. tạo request OpenAI-compatible để test;
  4. lưu endpoint local và hosted trong Apidog;
  5. so sánh latency, output và chi phí trước khi đưa vào app.

Top comments (0)