Sebastian Petrus

Posted on Jun 1 • Originally published at apidog.com

Hướng Dẫn Sử Dụng API MiniMax M3 Chi Tiết

MiniMax M3 là mô hình lập luận và mã hóa với cửa sổ ngữ cảnh lên tới 1.000.000 token. Điểm đáng chú ý là bạn có thể đưa vào toàn bộ repo, log nhiều ngày hoặc tài liệu thiết kế dài, rồi yêu cầu mô hình phân tích trong một lần gọi API. Nếu bạn cần nắm nền tảng trước, hãy đọc MiniMax M3 là gì.

Dùng thử Apidog ngay hôm nay

Bài viết này tập trung vào phần triển khai: lấy API key, gửi request bằng curl/Python/Node.js, bật chế độ suy luận, xử lý ngữ cảnh dài, gọi tool và kiểm tra request trong Apidog trước khi đưa vào ứng dụng. Nếu muốn làm theo từng bước, bạn có thể tải xuống Apidog.

Tài liệu tham khảo chính thức nằm tại tài liệu API của MiniMax. Hãy mở nó trong một tab để đối chiếu khi cần.

Những gì bạn cần

Trước khi gọi MiniMax M3, chuẩn bị:

Tài khoản MiniMax tại platform.minimax.io.
API key hoặc Subscription Key.
Phương thức thanh toán: trả theo mức sử dụng hoặc gói thuê bao token.
Python 3.8+ nếu dùng ví dụ Python.
Node.js 18+ nếu dùng ví dụ Node.js.

Với ví dụ curl, bạn không cần cài thêm SDK.

Bước 1: Tạo và lưu API key

Đăng nhập tại platform.minimax.io, mở phần API key trong tài khoản và tạo khóa mới.

MiniMax có hai loại thông tin đăng nhập:

API key thông thường: tính phí vào số dư trả theo mức sử dụng.
Subscription Key: dùng tín dụng token từ gói Plus, Max hoặc Ultra. Khi token trong gói hết, request dùng key này sẽ dừng cho đến khi gói được gia hạn hoặc bạn chuyển sang key trả theo mức sử dụng.

Chọn loại key theo cách bạn muốn thanh toán. Sau khi tạo, sao chép và lưu lại ngay vì bạn sẽ không thấy key lần nữa.

Không hard-code key vào source code. Lưu nó dưới dạng biến môi trường:

export MINIMAX_API_KEY="your-key-here"

Trong ứng dụng production, hãy cấu hình biến này qua secret manager, CI/CD variables hoặc environment config của nền tảng deploy.

Nếu bạn cũng xử lý API key trong editor hoặc extension, hãy áp dụng cùng nguyên tắc bảo mật. Các lỗi rò rỉ phổ biến được đề cập trong bài bảo mật khóa API của tiện ích mở rộng VS Code.

Bước 2: Gửi request đầu tiên

Endpoint chat của MiniMax M3 là:

POST https://api.minimax.io/v1/chat/completions

Thông tin cần nhớ:

Base URL: https://api.minimax.io/v1
Endpoint: /chat/completions
Auth header: Authorization: Bearer $MINIMAX_API_KEY
Model ID: MiniMax-M3

Request nhỏ nhất bằng curl:

curl https://api.minimax.io/v1/chat/completions \
  -H "Authorization: Bearer $MINIMAX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMax-M3",
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to be async."
      }
    ]
  }'

Nếu thành công, response sẽ có cấu trúc dạng chat completion và câu trả lời nằm trong choices[0].message.content.

Gọi MiniMax M3 bằng Python

MiniMax M3 có thể được gọi qua OpenAI SDK bằng cách đổi base_url.

Cài SDK nếu chưa có:

pip install openai

Ví dụ Python:

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key=os.environ["MINIMAX_API_KEY"],
)

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Refactor this function to be async.",
        }
    ],
)

print(response.choices[0].message.content)

Điểm khác biệt chính so với OpenAI API là base_url.

Gọi MiniMax M3 bằng Node.js

Cài SDK:

npm install openai

Ví dụ Node.js:

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.minimax.io/v1",
  apiKey: process.env.MINIMAX_API_KEY,
});

const response = await client.chat.completions.create({
  model: "MiniMax-M3",
  messages: [
    {
      role: "user",
      content: "Refactor this function to be async.",
    },
  ],
});

console.log(response.choices[0].message.content);

MiniMax khuyến nghị Anthropic SDK, nhưng HTTP thô, Anthropic SDK và OpenAI SDK đều có thể dùng cùng endpoint. Nếu bạn từng dùng API Qwen 3.7, pattern này sẽ quen thuộc: đa số model hiện nay cung cấp giao diện tương thích OpenAI để giảm chi phí chuyển đổi.

Tham khảo thêm:

Bước 3: Kiểm tra request trong Apidog

Trước khi nhúng API call vào ứng dụng, hãy gửi thủ công một request và đọc response thô. Việc này giúp bạn xác nhận auth, payload, schema response và lỗi trước khi viết logic xử lý.

Trong Apidog:

Tạo HTTP request mới.
Chọn method POST.
Nhập URL:

   https://api.minimax.io/v1/chat/completions

Mở Environments và thêm biến:

   MINIMAX_API_KEY=your-key-here

Trong tab Headers, thêm:

   Authorization: Bearer {{MINIMAX_API_KEY}}
   Content-Type: application/json

Trong Body, chọn JSON thô và nhập:

   {
     "model": "MiniMax-M3",
     "messages": [
       {
         "role": "user",
         "content": "Refactor this function to be async."
       }
     ]
   }

Nhấn Send và kiểm tra response.

[Ảnh chụp màn hình: yêu cầu và phản hồi MiniMax-M3 trong Apidog]

Lưu token dưới dạng environment variable giúp bạn chia sẻ request với đồng đội mà không lộ secret. Bạn cũng có thể đổi giữa API key trả theo mức sử dụng và Subscription Key chỉ bằng cách đổi giá trị biến.

Khi bật streaming sau này, Apidog có thể giúp bạn quan sát server-sent events trước khi viết parser trong ứng dụng. Đây là cách nhanh để phát hiện sớm các khác biệt về schema hoặc format response.

Bước 4: Bật chế độ suy luận

M3 là mô hình suy luận. Theo mặc định, API trả về câu trả lời cuối cùng. Nếu cần kiểm tra quá trình suy luận, bạn có thể bật reasoning_split.

Với OpenAI SDK, truyền reasoning_split qua extra_body:

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key=os.environ["MINIMAX_API_KEY"],
)

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Refactor this function to be async.",
        }
    ],
    extra_body={
        "reasoning_split": True,
    },
)

print(response.choices[0].message.reasoning_details[0]["text"])
print(response.choices[0].message.content)

Khi reasoning_split được bật:

Phần suy luận nằm ở:

  response.choices[0].message.reasoning_details[0]["text"]

Câu trả lời cuối cùng vẫn nằm ở:

  response.choices[0].message.content

Cách dùng thực tế:

Bật suy luận cho các tác vụ khó: debug lỗi phức tạp, refactor nhiều bước, phân tích log lớn, review kiến trúc.
Tắt suy luận cho tác vụ đơn giản hoặc nhạy cảm với độ trễ, vì token suy luận bổ sung sẽ làm tăng thời gian và chi phí.

Trong UI, nên tách riêng hai phần:

Hiển thị câu trả lời cuối cùng cho người dùng.
Lưu suy luận vào log nội bộ hoặc bước xác minh nếu cần.

Bước 5: Làm việc với ngữ cảnh 1M token

Cửa sổ ngữ cảnh lớn là lý do chính để dùng M3. Bạn có thể đưa log dài, tài liệu lớn hoặc nhiều file code vào cùng một request.

Ví dụ phân tích log:

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key=os.environ["MINIMAX_API_KEY"],
)

with open("production-2026-05-30.log") as f:
    log_text = f.read()

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": (
                "Find the root cause of the 502 spike at 14:20 UTC.\n\n"
                f"{log_text}"
            ),
        }
    ],
)

print(response.choices[0].message.content)

Tuy nhiên, đừng đưa 1 triệu token vào prompt một cách mặc định.

MiniMax tính phí theo mức tiêu chuẩn cho input từ 512K token trở xuống. Khi input vượt quá 512K token, mức phí ngữ cảnh dài cao hơn sẽ được áp dụng. Vì vậy, request 600K token không chỉ đơn giản là đắt hơn request 400K token theo tỷ lệ tuyến tính; nó vượt qua một ngưỡng giá.

Checklist trước khi gửi context lớn:

Chỉ gửi phần log, file hoặc tài liệu liên quan.
Cắt bỏ nội dung trùng lặp.
Tách request theo giai đoạn nếu không cần toàn bộ context cùng lúc.
Với agent nhiều bước, giảm context cho từng call để kiểm soát chi phí.

Nếu bạn đang tối ưu chi phí cho agent, xem thêm bài cách giảm chi phí token của agent.

Bước 6: Gọi công cụ

M3 hỗ trợ tool calling, nên bạn có thể để model quyết định khi nào cần gọi một hàm trong hệ thống của bạn.

Ví dụ khai báo tool run_tests:

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_tests",
            "description": "Run the test suite for a given module path.",
            "parameters": {
                "type": "object",
                "properties": {
                    "module": {
                        "type": "string",
                    },
                },
                "required": ["module"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Fix the failing test in auth/session.py and confirm it passes.",
        }
    ],
    tools=tools,
)

Luồng xử lý thường là:

Gửi prompt kèm danh sách tools.
Model trả về tool_calls nếu cần gọi tool.
Ứng dụng của bạn đọc tên tool và arguments.
Ứng dụng chạy hàm thật.
Gửi kết quả tool lại cho model dưới dạng message có role tool.
Gọi API lần nữa để model tiếp tục hoặc trả lời cuối cùng.

Phần dễ lỗi nhất là bước “bắt tay” giữa model và runtime của bạn: parse arguments, validate input, chạy tool, rồi trả kết quả đúng format. Trước khi triển khai agent phức tạp, nên đọc thêm về kết nối công cụ quy trình làm việc của agent.

Trong Apidog, bạn có thể lưu từng request của cuộc hội thoại đa lượt:

Request ban đầu.
Response chứa tool_calls.
Request gửi kết quả tool.
Request follow-up để model trả lời cuối cùng.

Cách này giúp debug từng bước thay vì phải đoán lỗi trong runtime agent.

Bước 7: Gửi đầu vào đa phương thức

M3 cũng hỗ trợ đầu vào đa phương thức, bao gồm hình ảnh. Bạn truyền phần nội dung hình ảnh trong cùng mảng messages với prompt văn bản, theo format content-parts tiêu chuẩn.

Vì tên trường và format chi tiết có thể thay đổi nhanh hơn endpoint text, hãy kiểm tra tài liệu tham khảo API trước khi triển khai production.

Cách kiểm tra an toàn:

Tạo một request mẫu trong Apidog.
Gửi một prompt text + một image input nhỏ.
Kiểm tra response thô.
Sau đó mới port payload sang Python hoặc Node.js.

Giá cả và các gói

Chi phí phụ thuộc vào hai nhóm cơ chế: gói token và cấp dịch vụ.

Các gói token đặt ngân sách tín dụng của bạn:

Plus: $20
Max: $50
Ultra: $120

Mỗi gói bao gồm lượng tín dụng token khác nhau và được dùng bởi Subscription Key. Nếu dùng API key thông thường, request sẽ tính vào số dư trả theo mức sử dụng.

Cấp dịch vụ kiểm soát ưu tiên lập lịch:

standard: mặc định, phù hợp với đa số workload.
priority: dành cho traffic nhạy cảm với độ trễ hoặc có ràng buộc SLA.

Kết hợp với ngưỡng 512K token ở trên, chi phí thực tế phụ thuộc vào:

Kích thước input.
Kích thước output.
Gói token hoặc trả theo mức sử dụng.
Cấp dịch vụ standard hoặc priority.
Việc có bật reasoning hay không.

Để biết giá hiện tại theo token, hãy kiểm tra trang giá và mô hình của MiniMax và tài liệu API, vì giá công bố có thể thay đổi.

Câu hỏi thường gặp

Có cách nào miễn phí để dùng thử M3 không?

Có. Bạn có thể kiểm tra model mà không cần cam kết gói trả phí. Các cách dùng thử được tổng hợp trong bài cách sử dụng MiniMax M3 miễn phí.

SDK nào hoạt động với API?

Có ba lựa chọn:

HTTP thô.
Anthropic SDK.
OpenAI SDK.

MiniMax khuyến nghị Anthropic SDK, nhưng cả ba đều truy cập cùng endpoint:

https://api.minimax.io/v1/chat/completions

Với OpenAI SDK hoặc Anthropic SDK, bạn chủ yếu cần đổi base_url sang MiniMax.

Làm cách nào để stream response?

Thêm stream: true vào request body:

{
  "model": "MiniMax-M3",
  "stream": true,
  "messages": [
    {
      "role": "user",
      "content": "Explain this stack trace."
    }
  ]
}

API sẽ trả về server-sent events. Các SDK thường cung cấp iterator để bạn đọc từng chunk khi chúng đến. Trước khi viết parser, nên gửi request streaming trong Apidog để quan sát format sự kiện.

Giới hạn tốc độ là gì?

Giới hạn tốc độ phụ thuộc vào cấp tài khoản và việc bạn dùng dịch vụ standard hay priority.

Nếu gặp lỗi 429:

Thêm retry với backoff.
Giảm concurrency.
Kiểm tra quota trong dashboard.
Chuyển workload nhạy cảm với độ trễ sang priority nếu phù hợp.

Các con số hiện tại có trong dashboard tài khoản và tài liệu API.

Ngưỡng 512K ảnh hưởng đến hóa đơn như thế nào?

Request có input từ 512K token trở xuống được tính theo mức tiêu chuẩn. Khi input vượt quá 512K token, mức phí ngữ cảnh dài cao hơn được áp dụng.

Trong agent loop, chi phí có thể tăng nhanh vì mỗi bước lại gửi thêm context. Hãy cắt prompt để chỉ giữ token mà model thực sự cần.

Tôi có thể tự host trọng số thay vì gọi API không?

Hướng dẫn này dùng API được host, đây là cách nhanh nhất để bắt đầu. Việc tự host phụ thuộc vào những gì MiniMax công bố cho M3 tại từng thời điểm. Hãy kiểm tra trang mô hình để biết trạng thái trọng số và giấy phép hiện tại.

Tóm tắt

Bạn đã có các phần cần thiết để gọi MiniMax M3:

API key được lưu trong biến môi trường.
Request curl hoạt động.
Ví dụ Python và Node.js qua OpenAI SDK.
Cách bật reasoning_split.
Cách xử lý ngữ cảnh dài và ngưỡng 512K token.
Cách khai báo tool calling.
Quy trình kiểm tra request trong Apidog.

Cách nhanh nhất để bắt đầu là tạo request trong Apidog, lưu MINIMAX_API_KEY dưới dạng environment variable, gửi một prompt refactor đơn giản và đọc response thô. Sau khi xác nhận payload và schema, bạn có thể đưa cùng request đó vào code production.

DEV Community