Sebastian Petrus

Posted on Jun 1 • Originally published at apidog.com

So Sánh MiniMax M3 với Claude Opus 4.7 với GPT-5.5: Đánh Giá Hiệu Năng Lập Trình

MiniMax M3 đưa ra một tuyên bố đáng chú ý: một mô hình trọng số mở có thể vượt GPT-5.5 và Gemini 3.1 Pro trên một benchmark mã hóa khó, đồng thời tiệm cận Claude Opus 4.7. Nếu kết quả này được xác nhận độc lập, cách bạn chọn mô hình cho coding agent, kiểm thử API và workflow tự động sẽ thay đổi: thay vì chỉ thuê API mô hình đóng, bạn có thêm lựa chọn tải trọng số, tự host và tối ưu chi phí theo hạ tầng của mình.

Thử Apidog ngay hôm nay

Bài viết này không xem các số liệu đó như kết luận cuối cùng. Phần lớn dữ liệu hiện do MiniMax tự công bố; xác nhận từ bảng xếp hạng độc lập vẫn cần chờ thêm. Vì vậy, cách tiếp cận thực tế là: hiểu M3 tuyên bố làm được gì, so sánh với Claude Opus 4.7 và GPT-5.5, rồi tự benchmark bằng workload của bạn. Để đọc nền tảng về mô hình, xem MiniMax M3 là gì. Số liệu gốc nằm trong thông báo MiniMax M3.

Các đối thủ cạnh tranh sơ lược

Ba mô hình đại diện cho ba hướng triển khai khác nhau:

MiniMax M3: trọng số mở, nhấn mạnh chi phí và khả năng tự host.
Claude Opus 4.7: mô hình đóng, ưu tiên độ tin cậy và hệ sinh thái.
GPT-5.5: mô hình đóng, phù hợp nếu hệ thống đã chuẩn hóa trên OpenAI.

Thuộc tính	MiniMax M3	Claude Opus 4.7	GPT-5.5
Trọng số	Mở, dự kiến phát hành khoảng 10 ngày sau thông báo	Đóng	Đóng
Cửa sổ ngữ cảnh	1.000.000 token	Lớn, xem tài liệu Anthropic	Lớn, xem tài liệu OpenAI
Đa phương thức	Nguyên bản: hình ảnh, video, sử dụng máy tính	Hình ảnh + văn bản	Hình ảnh + văn bản
Kiến trúc	MSA, MiniMax nói chi phí tính toán mỗi token khoảng 1/20 so với thế hệ trước	Chưa công bố	Chưa công bố
Mô hình định giá	Gói $20 / $50 / $120 + API tính phí theo mức sử dụng	Theo token, xem giá Anthropic	Theo token, xem giá OpenAI
Số lượng tham số	Chưa công bố	Chưa công bố	Chưa công bố

Điểm khác biệt quan trọng nhất với developer là khả năng triển khai. Bạn không thể tự host Opus 4.7 hoặc GPT-5.5. Với M3, MiniMax nói trọng số và báo cáo kỹ thuật sẽ được phát hành, mở ra lựa chọn chạy on-prem, trên cloud riêng hoặc trong môi trường có yêu cầu kiểm soát dữ liệu.

Benchmark mã hóa: M3 mạnh ở đâu, yếu ở đâu

Mã hóa là nơi MiniMax đưa ra tuyên bố lớn nhất. Benchmark nổi bật là SWE-Bench Pro, tập trung vào tác vụ kỹ thuật phần mềm thực tế.

Các số liệu dưới đây là do MiniMax báo cáo:

Benchmark	MiniMax M3	Vị trí MiniMax tuyên bố
SWE-Bench Pro	59,0%	Vượt GPT-5.5, vượt Gemini 3.1 Pro, tiệm cận Opus 4.7
Terminal-Bench 2.1	66,0%	Hiệu suất agent mạnh
SWE-fficiency	34,8%	Hiệu quả giải quyết vấn đề
KernelBench Hard	28,8%	Tạo kernel cấp thấp
PostTrainBench	0,37	Thua Opus 4.7: 0,42 và GPT-5.5: 0,39

Cách đọc bảng này nên thực dụng:

Nếu bạn xây coding agent, SWE-Bench Pro 59,0% là tín hiệu đáng chú ý.
Nếu workload của bạn gần với post-training hoặc yêu cầu khả năng tổng quát sau huấn luyện, PostTrainBench cho thấy M3 chưa dẫn đầu.
Nếu cần so sánh công bằng, hãy chờ hoặc kiểm tra chéo trên bảng xếp hạng SWE-Bench.

Nói ngắn gọn: M3 không “thắng toàn bộ trong mã hóa”. Nó đạt mức rất cạnh tranh trên một benchmark quan trọng, nhưng vẫn thấp hơn Opus 4.7 và GPT-5.5 ở một số bài kiểm tra khác.

Mẫu hình này giống các mô hình mở mạnh gần đây: khoảng cách được thu hẹp nhanh trên từng tác vụ cụ thể trước khi thu hẹp ở mọi khía cạnh. Nếu bạn từng theo dõi so sánh Qwen 3.7 so với GPT-5.5 so với Opus 4.7, xu hướng này sẽ khá quen thuộc.

Cách benchmark M3, Opus 4.7 và GPT-5.5 cho codebase của bạn

Đừng chọn mô hình chỉ bằng bảng xếp hạng. Hãy chạy cùng một bộ test trên codebase hoặc ticket thật của bạn.

Một bộ benchmark tối thiểu nên gồm:

Bug fix nhỏ
- Input: issue, stack trace, file liên quan.
- Output mong muốn: patch hoặc diff.
Refactor có ràng buộc
- Input: module hiện tại + yêu cầu không đổi API public.
- Output mong muốn: code sạch hơn, test vẫn pass.
Tạo test
- Input: function/class hiện có.
- Output mong muốn: unit test hợp lệ.
Tool calling / API task
- Input: OpenAPI spec hoặc tài liệu endpoint.
- Output mong muốn: request hợp lệ, xử lý lỗi đúng.
JSON contract
- Input: yêu cầu trả về schema cụ thể.
- Output mong muốn: JSON parse được và đúng schema.

Ví dụ prompt dùng lại cho cả ba mô hình:

Bạn là senior backend engineer.

Nhiệm vụ:
- Đọc issue bên dưới.
- Đề xuất nguyên nhân gốc.
- Tạo patch dạng unified diff.
- Không thay đổi public API.
- Nếu cần thêm test, thêm test tối thiểu.

Issue:
{issue_text}

Các file liên quan:
{file_context}

Trả về đúng cấu trúc:
{
  "root_cause": "...",
  "patch": "...",
  "tests": ["..."],
  "risk": "low|medium|high"
}

Sau đó chấm điểm theo cùng một rubric:

Tiêu chí	Cách đo
Correctness	Patch có giải quyết bug không
Build/test	Test có chạy được không
JSON validity	Output parse được không
Latency	Thời gian phản hồi
Token usage	Input/output token
Maintainability	Code có dễ review không
Tool reliability	Có gọi đúng tool/API không

Agentic workflow và tool use

Nếu benchmark mã hóa là phần nổi bật, thì khả năng agentic mới là phần ảnh hưởng trực tiếp đến automation.

MiniMax báo cáo M3 đạt:

74,2% trên MCP Atlas, kiểm tra phối hợp công cụ qua Model Context Protocol.
Điểm cao trên Claw-Eval, một benchmark về agent.

MiniMax cũng demo:

Một tác vụ tối ưu kernel CUDA kéo dài 24 giờ, đạt tăng tốc 9,4 lần.
Một workflow tái tạo bài báo tự động tạo 18 commit và 23 hình ảnh mà không cần can thiệp thủ công.

Với developer, điểm quan trọng không chỉ là mô hình. Agent chạy lâu phụ thuộc nhiều vào harness xung quanh:

quản lý context,
gọi tool có kiểm soát,
retry khi lỗi,
checkpoint,
giới hạn chi phí,
xác thực output,
logging đầy đủ.

Một vòng lặp agent tối thiểu có thể trông như sau:

type AgentStep = {
  task: string;
  context: string;
  toolResults?: unknown[];
};

async function runAgent(initialTask: string) {
  let state: AgentStep = {
    task: initialTask,
    context: "",
    toolResults: [],
  };

  for (let i = 0; i < 20; i++) {
    const response = await callModel({
      task: state.task,
      context: state.context,
      toolResults: state.toolResults,
    });

    if (response.type === "final") {
      return response.result;
    }

    if (response.type === "tool_call") {
      const result = await runToolSafely(response.tool, response.args);

      state.toolResults?.push({
        tool: response.tool,
        result,
      });

      continue;
    }

    throw new Error(`Unsupported response type: ${response.type}`);
  }

  throw new Error("Agent reached max steps");
}

Trong production, bạn nên bổ sung:

const limits = {
  maxSteps: 20,
  maxWallClockMs: 30 * 60 * 1000,
  maxInputTokens: 200_000,
  maxCostUsd: 5,
};

Và log từng bước:

{
  "model": "minimax-m3",
  "step": 7,
  "tool": "run_tests",
  "latency_ms": 18320,
  "input_tokens": 42110,
  "output_tokens": 1902,
  "status": "success"
}

Phân tích về kiến trúc khung agent Claude Code cũng áp dụng cho M3, Opus 4.7 hoặc GPT-5.5: mô hình mạnh chỉ là một phần; harness quyết định agent có hoàn thành việc dài hạn hay không.

Đa phương thức và hiểu tài liệu

M3 hỗ trợ đa phương thức nguyên bản: hình ảnh, video và sử dụng máy tính. Đây là bề mặt đầu vào rộng hơn so với thiết lập hình ảnh + văn bản của Opus 4.7 và GPT-5.5.

MiniMax báo cáo:

M3 vượt Opus 4.7 trên SVG-Bench, benchmark tạo đồ họa có cấu trúc.
M3 vượt Gemini 3.1 Pro trên OmniDocBench, benchmark hiểu tài liệu.

Các use case thực tế có thể gồm:

đọc tài liệu PDF hoặc ảnh chụp màn hình,
phân tích UI,
tạo mô tả hoặc kiểm tra SVG,
điều khiển workflow có thao tác trên máy tính,
trích xuất dữ liệu có cấu trúc từ tài liệu.

Tuy nhiên, các kết quả này vẫn là số liệu do nhà cung cấp báo cáo. Nếu ứng dụng của bạn phụ thuộc vào tài liệu hoặc hình ảnh, hãy benchmark trực tiếp bằng dữ liệu thật thay vì dựa vào điểm tổng quát.

Cửa sổ ngữ cảnh 1M token: dùng thế nào cho đúng

M3 có cửa sổ ngữ cảnh 1.000.000 token. MiniMax nói kiến trúc MSA giúp:

giảm chi phí tính toán mỗi token xuống khoảng 1/20 so với thế hệ trước,
prefill nhanh hơn 9 lần,
decode nhanh hơn 15 lần.

Điều này quan trọng với coding agent vì các workload thực tế thường cần nhiều context:

nhiều file trong repo,
log dài,
trace lỗi,
tài liệu API,
lịch sử hội thoại,
kết quả tool call.

Nhưng 1M token không có nghĩa là bạn nên nhét toàn bộ repo vào prompt. Cách làm tốt hơn:

Index codebase
Retrieve file liên quan
Tóm tắt context cũ
Chỉ gửi đoạn cần thiết
Ghi lại quyết định của agent dưới dạng state ngắn

Ví dụ cấu trúc context:

{
  "task": "Fix failing payment webhook test",
  "relevant_files": [
    "src/webhooks/payment.ts",
    "src/services/billing.ts",
    "tests/payment-webhook.test.ts"
  ],
  "summaries": {
    "src/webhooks/payment.ts": "Handles provider webhook validation and dispatch.",
    "src/services/billing.ts": "Updates subscription state based on provider event."
  },
  "constraints": [
    "Do not change public API",
    "All existing tests must pass",
    "Return unified diff only"
  ]
}

Trước khi dùng tối đa context window, hãy đọc thêm cách giảm chi phí token agent trong CLI. Token rẻ nhất vẫn là token bạn không gửi.

Thực tế về giá

Đây là điểm khác biệt lớn giữa mô hình mở và đóng.

MiniMax M3 có:

gói Plus: $20,
gói Max: $50,
gói Ultra: $120,
API tính phí theo mức sử dụng,
mức giá tiêu chuẩn cho input đến 512K token,
mức giá ngữ cảnh dài hơn cho các gói cao hơn,
bậc tiêu chuẩn và ưu tiên.

MiniMax chưa công bố giá chính xác theo token, nên hiện tại chỉ nên xem các gói này như tín hiệu định vị chi phí.

Với Opus 4.7 và GPT-5.5, hãy kiểm tra giá hiện tại trực tiếp từ:

Khác biệt triển khai:

Lựa chọn	Bạn trả tiền cho	Phù hợp khi
MiniMax M3 tự host	GPU, hạ tầng, vận hành	Volume lớn, cần kiểm soát dữ liệu, có năng lực infra
MiniMax M3 API	API usage	Muốn thử nhanh hoặc không muốn vận hành
Opus 4.7 / GPT-5.5	Token API	Muốn độ ổn định, hệ sinh thái, không quản lý hạ tầng

Nếu bạn chạy agent nhiều bước, hãy tính chi phí theo workflow, không chỉ theo một request:

total_cost =
  number_of_tasks
  × average_steps_per_task
  × average_tokens_per_step
  × price_per_token

Áp lực giá từ các mô hình mở cũng là một phần của xu hướng lớn hơn. Bài viết về cuộc chiến giá LLM của Trung Quốc năm 2026 phân tích cách các bản phát hành mở đang kéo chi phí mô hình tiên phong xuống.

Nên chọn mô hình nào?

Chọn theo ràng buộc kỹ thuật của bạn, không theo headline benchmark.

Tình huống	Nên chọn	Lý do
Nhạy cảm chi phí hoặc cần tự host	MiniMax M3	Trọng số mở, kiểm soát triển khai và chi phí
Cần độ tin cậy tối đa và hệ sinh thái trưởng thành	Claude Opus 4.7	Công cụ đã được kiểm chứng, dẫn đầu PostTrainBench
Đã chuẩn hóa trên OpenAI	GPT-5.5	Giữ nguyên billing, tooling và hệ thống hiện có
Chạy agent dài hạn với ngân sách hạn chế	MiniMax M3	Context 1M và hiệu quả MSA có thể giảm chi phí dài hạn
Có yêu cầu dữ liệu không rời khỏi hạ tầng riêng	MiniMax M3	Lựa chọn duy nhất trong ba mô hình có thể tự chạy

Nếu bạn đang triển khai production ngay hôm nay và ưu tiên rủi ro thấp, Opus 4.7 vẫn có lợi thế về hồ sơ vận hành. Nếu bạn cần scale lớn, kiểm soát dữ liệu hoặc tối ưu chi phí, M3 rất đáng thử khi trọng số được phát hành.

Cách tự kiểm định bằng Apidog

Số liệu vendor cho bạn biết mô hình có thể làm gì. Benchmark nội bộ cho bạn biết mô hình có phù hợp với sản phẩm của bạn không.

Bạn có thể thiết lập so sánh trong một dự án Apidog:

Tạo một request cho endpoint chat của MiniMax M3.
Tạo request tương tự cho Claude Opus 4.7.
Tạo request tương tự cho GPT-5.5.
Dùng cùng prompt, cùng temperature, cùng schema output.
Lưu thành test scenario.
Chạy hàng loạt và so sánh latency, response body, token usage nếu provider trả về.

Ví dụ body request dạng chung:

{
  "model": "{{model_name}}",
  "messages": [
    {
      "role": "system",
      "content": "Bạn là senior software engineer. Trả về JSON hợp lệ theo schema được yêu cầu."
    },
    {
      "role": "user",
      "content": "{{benchmark_prompt}}"
    }
  ],
  "temperature": 0.2
}

Dùng biến môi trường để hoán đổi key:

MINIMAX_API_KEY=...
ANTHROPIC_API_KEY=...
OPENAI_API_KEY=...

Bạn cũng nên thêm assertion cho output. Ví dụ:

response status là 200,
body có trường root_cause,
body có trường patch,
JSON parse được,
risk thuộc low, medium, high.

Ví dụ schema mong muốn:

{
  "type": "object",
  "required": ["root_cause", "patch", "tests", "risk"],
  "properties": {
    "root_cause": { "type": "string" },
    "patch": { "type": "string" },
    "tests": {
      "type": "array",
      "items": { "type": "string" }
    },
    "risk": {
      "type": "string",
      "enum": ["low", "medium", "high"]
    }
  }
}

Bạn có thể tải Apidog và chạy cùng một bộ prompt qua ba provider trong một workspace, thay vì viết nhiều script tạm thời.

Khi cần tích hợp M3 cụ thể, xem hướng dẫn cách sử dụng API MiniMax M3. Sau đó, việc thêm Opus 4.7 và GPT-5.5 vào cùng bộ test trong Apidog chỉ còn là nhân bản request và đổi endpoint/key.

Checklist trước khi chọn mô hình

Trước khi commit một mô hình vào hệ thống, hãy trả lời các câu hỏi này:

Bạn có cần tự host không?
Dữ liệu có được phép rời khỏi hạ tầng của bạn không?
Workload chính là coding, document understanding, tool use hay chat?
Agent trung bình chạy bao nhiêu bước?
Tổng token mỗi task là bao nhiêu?
Bạn có cần output JSON ổn định không?
Bạn có test tự động để kiểm tra câu trả lời không?
Bạn có fallback model khi request lỗi không?
Bạn có log latency, token, cost theo task không?
Bạn đã benchmark bằng dữ liệu thật chưa?

Một cấu hình production thực tế thường không chỉ dùng một mô hình:

simple_tasks       -> model rẻ hơn
coding_agent       -> model mạnh hơn
long_context_tasks -> model có context lớn
critical_review    -> model đáng tin cậy nhất
fallback           -> provider thứ hai

Câu hỏi thường gặp

MiniMax M3 có thực sự tốt hơn GPT-5.5 không?

Không thể kết luận tổng quát như vậy. Trên SWE-Bench Pro, MiniMax báo cáo M3 đạt 59,0%, cao hơn GPT-5.5. Nhưng trên PostTrainBench, GPT-5.5 đạt 0,39 trong khi M3 đạt 0,37. M3 có thể tốt hơn ở một số tác vụ mã hóa, nhưng không phải lúc nào cũng vượt GPT-5.5.

MiniMax M3 có phải mã nguồn mở không?

MiniMax mô tả M3 là mô hình trọng số mở. Trọng số và báo cáo kỹ thuật được dự kiến phát hành sau thông báo. Tuy nhiên, “trọng số mở” không luôn đồng nghĩa với giấy phép mã nguồn mở đầy đủ. Hãy đọc điều khoản phát hành khi MiniMax công bố.

M3 có thể thay thế Opus 4.7 cho coding agent không?

Có thể, đặc biệt nếu bạn cần tối ưu chi phí hoặc tự host. M3 có số liệu agent mạnh như 66,0% trên Terminal-Bench 2.1 và 74,2% trên MCP Atlas. Nhưng Opus 4.7 vẫn dẫn đầu PostTrainBench và có hồ sơ production rõ hơn. Cách an toàn là benchmark cả hai bằng workflow thật của bạn.

Các benchmark này có độc lập không?

Chủ yếu là chưa. Các số liệu trong bài phần lớn đến từ MiniMax. Bạn nên kiểm tra thêm trên các bảng xếp hạng công khai như SWE-Bench khi bên thứ ba chạy M3.

Điểm hạn chế của context 1M token là gì?

Context lớn giúp đưa nhiều code và tài liệu vào prompt hơn, nhưng vẫn có chi phí. Mỗi token đều ảnh hưởng đến latency và chi phí trong vòng lặp agent. Ngay cả khi MSA giúp giảm chi phí tính toán, bạn vẫn nên retrieve context chọn lọc và tóm tắt state.

Làm thế nào để so sánh cả ba mà chưa cần commit?

Chạy cùng một prompt qua API của từng mô hình, đo output, latency, token usage và khả năng tuân thủ schema. Một project Apidog với một request cho mỗi provider là cách nhanh để so sánh song song mà không cần viết script riêng.

Tổng kết

MiniMax M3 là một trong những thách thức trọng số mở đáng chú ý nhất với các mô hình tiên phong đóng. Nếu tuyên bố SWE-Bench Pro được xác nhận độc lập, kỳ vọng về coding model tự host sẽ thay đổi đáng kể.

Tuy nhiên, dữ liệu hiện chủ yếu đến từ MiniMax, và PostTrainBench cho thấy Opus 4.7 cùng GPT-5.5 vẫn có lợi thế ở một số khía cạnh. Chọn M3 nếu chi phí, tự host hoặc kiểm soát dữ liệu là ưu tiên. Chọn Opus 4.7 nếu bạn cần độ tin cậy đã được kiểm chứng. Chọn GPT-5.5 nếu hệ thống của bạn đã nằm trong hệ sinh thái OpenAI.

Quan trọng nhất: hãy benchmark bằng prompt, codebase và workflow thật của bạn. Với LLM trong production, workload của bạn mới là benchmark có giá trị nhất.

DEV Community