MiniMax M3 đưa ra một tuyên bố đáng chú ý: một mô hình trọng số mở có thể vượt GPT-5.5 và Gemini 3.1 Pro trên một benchmark mã hóa khó, đồng thời tiệm cận Claude Opus 4.7. Nếu kết quả này được xác nhận độc lập, cách bạn chọn mô hình cho coding agent, kiểm thử API và workflow tự động sẽ thay đổi: thay vì chỉ thuê API mô hình đóng, bạn có thêm lựa chọn tải trọng số, tự host và tối ưu chi phí theo hạ tầng của mình.
Bài viết này không xem các số liệu đó như kết luận cuối cùng. Phần lớn dữ liệu hiện do MiniMax tự công bố; xác nhận từ bảng xếp hạng độc lập vẫn cần chờ thêm. Vì vậy, cách tiếp cận thực tế là: hiểu M3 tuyên bố làm được gì, so sánh với Claude Opus 4.7 và GPT-5.5, rồi tự benchmark bằng workload của bạn. Để đọc nền tảng về mô hình, xem MiniMax M3 là gì. Số liệu gốc nằm trong thông báo MiniMax M3.
Các đối thủ cạnh tranh sơ lược
Ba mô hình đại diện cho ba hướng triển khai khác nhau:
- MiniMax M3: trọng số mở, nhấn mạnh chi phí và khả năng tự host.
- Claude Opus 4.7: mô hình đóng, ưu tiên độ tin cậy và hệ sinh thái.
- GPT-5.5: mô hình đóng, phù hợp nếu hệ thống đã chuẩn hóa trên OpenAI.
| Thuộc tính | MiniMax M3 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Trọng số | Mở, dự kiến phát hành khoảng 10 ngày sau thông báo | Đóng | Đóng |
| Cửa sổ ngữ cảnh | 1.000.000 token | Lớn, xem tài liệu Anthropic | Lớn, xem tài liệu OpenAI |
| Đa phương thức | Nguyên bản: hình ảnh, video, sử dụng máy tính | Hình ảnh + văn bản | Hình ảnh + văn bản |
| Kiến trúc | MSA, MiniMax nói chi phí tính toán mỗi token khoảng 1/20 so với thế hệ trước | Chưa công bố | Chưa công bố |
| Mô hình định giá | Gói $20 / $50 / $120 + API tính phí theo mức sử dụng | Theo token, xem giá Anthropic | Theo token, xem giá OpenAI |
| Số lượng tham số | Chưa công bố | Chưa công bố | Chưa công bố |
Điểm khác biệt quan trọng nhất với developer là khả năng triển khai. Bạn không thể tự host Opus 4.7 hoặc GPT-5.5. Với M3, MiniMax nói trọng số và báo cáo kỹ thuật sẽ được phát hành, mở ra lựa chọn chạy on-prem, trên cloud riêng hoặc trong môi trường có yêu cầu kiểm soát dữ liệu.
Benchmark mã hóa: M3 mạnh ở đâu, yếu ở đâu
Mã hóa là nơi MiniMax đưa ra tuyên bố lớn nhất. Benchmark nổi bật là SWE-Bench Pro, tập trung vào tác vụ kỹ thuật phần mềm thực tế.
Các số liệu dưới đây là do MiniMax báo cáo:
| Benchmark | MiniMax M3 | Vị trí MiniMax tuyên bố |
|---|---|---|
| SWE-Bench Pro | 59,0% | Vượt GPT-5.5, vượt Gemini 3.1 Pro, tiệm cận Opus 4.7 |
| Terminal-Bench 2.1 | 66,0% | Hiệu suất agent mạnh |
| SWE-fficiency | 34,8% | Hiệu quả giải quyết vấn đề |
| KernelBench Hard | 28,8% | Tạo kernel cấp thấp |
| PostTrainBench | 0,37 | Thua Opus 4.7: 0,42 và GPT-5.5: 0,39 |
Cách đọc bảng này nên thực dụng:
- Nếu bạn xây coding agent, SWE-Bench Pro 59,0% là tín hiệu đáng chú ý.
- Nếu workload của bạn gần với post-training hoặc yêu cầu khả năng tổng quát sau huấn luyện, PostTrainBench cho thấy M3 chưa dẫn đầu.
- Nếu cần so sánh công bằng, hãy chờ hoặc kiểm tra chéo trên bảng xếp hạng SWE-Bench.
Nói ngắn gọn: M3 không “thắng toàn bộ trong mã hóa”. Nó đạt mức rất cạnh tranh trên một benchmark quan trọng, nhưng vẫn thấp hơn Opus 4.7 và GPT-5.5 ở một số bài kiểm tra khác.
Mẫu hình này giống các mô hình mở mạnh gần đây: khoảng cách được thu hẹp nhanh trên từng tác vụ cụ thể trước khi thu hẹp ở mọi khía cạnh. Nếu bạn từng theo dõi so sánh Qwen 3.7 so với GPT-5.5 so với Opus 4.7, xu hướng này sẽ khá quen thuộc.
Cách benchmark M3, Opus 4.7 và GPT-5.5 cho codebase của bạn
Đừng chọn mô hình chỉ bằng bảng xếp hạng. Hãy chạy cùng một bộ test trên codebase hoặc ticket thật của bạn.
Một bộ benchmark tối thiểu nên gồm:
-
Bug fix nhỏ
- Input: issue, stack trace, file liên quan.
- Output mong muốn: patch hoặc diff.
-
Refactor có ràng buộc
- Input: module hiện tại + yêu cầu không đổi API public.
- Output mong muốn: code sạch hơn, test vẫn pass.
-
Tạo test
- Input: function/class hiện có.
- Output mong muốn: unit test hợp lệ.
-
Tool calling / API task
- Input: OpenAPI spec hoặc tài liệu endpoint.
- Output mong muốn: request hợp lệ, xử lý lỗi đúng.
-
JSON contract
- Input: yêu cầu trả về schema cụ thể.
- Output mong muốn: JSON parse được và đúng schema.
Ví dụ prompt dùng lại cho cả ba mô hình:
Bạn là senior backend engineer.
Nhiệm vụ:
- Đọc issue bên dưới.
- Đề xuất nguyên nhân gốc.
- Tạo patch dạng unified diff.
- Không thay đổi public API.
- Nếu cần thêm test, thêm test tối thiểu.
Issue:
{issue_text}
Các file liên quan:
{file_context}
Trả về đúng cấu trúc:
{
"root_cause": "...",
"patch": "...",
"tests": ["..."],
"risk": "low|medium|high"
}
Sau đó chấm điểm theo cùng một rubric:
| Tiêu chí | Cách đo |
|---|---|
| Correctness | Patch có giải quyết bug không |
| Build/test | Test có chạy được không |
| JSON validity | Output parse được không |
| Latency | Thời gian phản hồi |
| Token usage | Input/output token |
| Maintainability | Code có dễ review không |
| Tool reliability | Có gọi đúng tool/API không |
Agentic workflow và tool use
Nếu benchmark mã hóa là phần nổi bật, thì khả năng agentic mới là phần ảnh hưởng trực tiếp đến automation.
MiniMax báo cáo M3 đạt:
- 74,2% trên MCP Atlas, kiểm tra phối hợp công cụ qua Model Context Protocol.
- Điểm cao trên Claw-Eval, một benchmark về agent.
MiniMax cũng demo:
- Một tác vụ tối ưu kernel CUDA kéo dài 24 giờ, đạt tăng tốc 9,4 lần.
- Một workflow tái tạo bài báo tự động tạo 18 commit và 23 hình ảnh mà không cần can thiệp thủ công.
Với developer, điểm quan trọng không chỉ là mô hình. Agent chạy lâu phụ thuộc nhiều vào harness xung quanh:
- quản lý context,
- gọi tool có kiểm soát,
- retry khi lỗi,
- checkpoint,
- giới hạn chi phí,
- xác thực output,
- logging đầy đủ.
Một vòng lặp agent tối thiểu có thể trông như sau:
type AgentStep = {
task: string;
context: string;
toolResults?: unknown[];
};
async function runAgent(initialTask: string) {
let state: AgentStep = {
task: initialTask,
context: "",
toolResults: [],
};
for (let i = 0; i < 20; i++) {
const response = await callModel({
task: state.task,
context: state.context,
toolResults: state.toolResults,
});
if (response.type === "final") {
return response.result;
}
if (response.type === "tool_call") {
const result = await runToolSafely(response.tool, response.args);
state.toolResults?.push({
tool: response.tool,
result,
});
continue;
}
throw new Error(`Unsupported response type: ${response.type}`);
}
throw new Error("Agent reached max steps");
}
Trong production, bạn nên bổ sung:
const limits = {
maxSteps: 20,
maxWallClockMs: 30 * 60 * 1000,
maxInputTokens: 200_000,
maxCostUsd: 5,
};
Và log từng bước:
{
"model": "minimax-m3",
"step": 7,
"tool": "run_tests",
"latency_ms": 18320,
"input_tokens": 42110,
"output_tokens": 1902,
"status": "success"
}
Phân tích về kiến trúc khung agent Claude Code cũng áp dụng cho M3, Opus 4.7 hoặc GPT-5.5: mô hình mạnh chỉ là một phần; harness quyết định agent có hoàn thành việc dài hạn hay không.
Đa phương thức và hiểu tài liệu
M3 hỗ trợ đa phương thức nguyên bản: hình ảnh, video và sử dụng máy tính. Đây là bề mặt đầu vào rộng hơn so với thiết lập hình ảnh + văn bản của Opus 4.7 và GPT-5.5.
MiniMax báo cáo:
- M3 vượt Opus 4.7 trên SVG-Bench, benchmark tạo đồ họa có cấu trúc.
- M3 vượt Gemini 3.1 Pro trên OmniDocBench, benchmark hiểu tài liệu.
Các use case thực tế có thể gồm:
- đọc tài liệu PDF hoặc ảnh chụp màn hình,
- phân tích UI,
- tạo mô tả hoặc kiểm tra SVG,
- điều khiển workflow có thao tác trên máy tính,
- trích xuất dữ liệu có cấu trúc từ tài liệu.
Tuy nhiên, các kết quả này vẫn là số liệu do nhà cung cấp báo cáo. Nếu ứng dụng của bạn phụ thuộc vào tài liệu hoặc hình ảnh, hãy benchmark trực tiếp bằng dữ liệu thật thay vì dựa vào điểm tổng quát.
Cửa sổ ngữ cảnh 1M token: dùng thế nào cho đúng
M3 có cửa sổ ngữ cảnh 1.000.000 token. MiniMax nói kiến trúc MSA giúp:
- giảm chi phí tính toán mỗi token xuống khoảng 1/20 so với thế hệ trước,
- prefill nhanh hơn 9 lần,
- decode nhanh hơn 15 lần.
Điều này quan trọng với coding agent vì các workload thực tế thường cần nhiều context:
- nhiều file trong repo,
- log dài,
- trace lỗi,
- tài liệu API,
- lịch sử hội thoại,
- kết quả tool call.
Nhưng 1M token không có nghĩa là bạn nên nhét toàn bộ repo vào prompt. Cách làm tốt hơn:
- Index codebase
- Retrieve file liên quan
- Tóm tắt context cũ
- Chỉ gửi đoạn cần thiết
- Ghi lại quyết định của agent dưới dạng state ngắn
Ví dụ cấu trúc context:
{
"task": "Fix failing payment webhook test",
"relevant_files": [
"src/webhooks/payment.ts",
"src/services/billing.ts",
"tests/payment-webhook.test.ts"
],
"summaries": {
"src/webhooks/payment.ts": "Handles provider webhook validation and dispatch.",
"src/services/billing.ts": "Updates subscription state based on provider event."
},
"constraints": [
"Do not change public API",
"All existing tests must pass",
"Return unified diff only"
]
}
Trước khi dùng tối đa context window, hãy đọc thêm cách giảm chi phí token agent trong CLI. Token rẻ nhất vẫn là token bạn không gửi.
Thực tế về giá
Đây là điểm khác biệt lớn giữa mô hình mở và đóng.
MiniMax M3 có:
- gói Plus: $20,
- gói Max: $50,
- gói Ultra: $120,
- API tính phí theo mức sử dụng,
- mức giá tiêu chuẩn cho input đến 512K token,
- mức giá ngữ cảnh dài hơn cho các gói cao hơn,
- bậc tiêu chuẩn và ưu tiên.
MiniMax chưa công bố giá chính xác theo token, nên hiện tại chỉ nên xem các gói này như tín hiệu định vị chi phí.
Với Opus 4.7 và GPT-5.5, hãy kiểm tra giá hiện tại trực tiếp từ:
Khác biệt triển khai:
| Lựa chọn | Bạn trả tiền cho | Phù hợp khi |
|---|---|---|
| MiniMax M3 tự host | GPU, hạ tầng, vận hành | Volume lớn, cần kiểm soát dữ liệu, có năng lực infra |
| MiniMax M3 API | API usage | Muốn thử nhanh hoặc không muốn vận hành |
| Opus 4.7 / GPT-5.5 | Token API | Muốn độ ổn định, hệ sinh thái, không quản lý hạ tầng |
Nếu bạn chạy agent nhiều bước, hãy tính chi phí theo workflow, không chỉ theo một request:
total_cost =
number_of_tasks
× average_steps_per_task
× average_tokens_per_step
× price_per_token
Áp lực giá từ các mô hình mở cũng là một phần của xu hướng lớn hơn. Bài viết về cuộc chiến giá LLM của Trung Quốc năm 2026 phân tích cách các bản phát hành mở đang kéo chi phí mô hình tiên phong xuống.
Nên chọn mô hình nào?
Chọn theo ràng buộc kỹ thuật của bạn, không theo headline benchmark.
| Tình huống | Nên chọn | Lý do |
|---|---|---|
| Nhạy cảm chi phí hoặc cần tự host | MiniMax M3 | Trọng số mở, kiểm soát triển khai và chi phí |
| Cần độ tin cậy tối đa và hệ sinh thái trưởng thành | Claude Opus 4.7 | Công cụ đã được kiểm chứng, dẫn đầu PostTrainBench |
| Đã chuẩn hóa trên OpenAI | GPT-5.5 | Giữ nguyên billing, tooling và hệ thống hiện có |
| Chạy agent dài hạn với ngân sách hạn chế | MiniMax M3 | Context 1M và hiệu quả MSA có thể giảm chi phí dài hạn |
| Có yêu cầu dữ liệu không rời khỏi hạ tầng riêng | MiniMax M3 | Lựa chọn duy nhất trong ba mô hình có thể tự chạy |
Nếu bạn đang triển khai production ngay hôm nay và ưu tiên rủi ro thấp, Opus 4.7 vẫn có lợi thế về hồ sơ vận hành. Nếu bạn cần scale lớn, kiểm soát dữ liệu hoặc tối ưu chi phí, M3 rất đáng thử khi trọng số được phát hành.
Cách tự kiểm định bằng Apidog
Số liệu vendor cho bạn biết mô hình có thể làm gì. Benchmark nội bộ cho bạn biết mô hình có phù hợp với sản phẩm của bạn không.
Bạn có thể thiết lập so sánh trong một dự án Apidog:
- Tạo một request cho endpoint chat của MiniMax M3.
- Tạo request tương tự cho Claude Opus 4.7.
- Tạo request tương tự cho GPT-5.5.
- Dùng cùng prompt, cùng temperature, cùng schema output.
- Lưu thành test scenario.
- Chạy hàng loạt và so sánh latency, response body, token usage nếu provider trả về.
Ví dụ body request dạng chung:
{
"model": "{{model_name}}",
"messages": [
{
"role": "system",
"content": "Bạn là senior software engineer. Trả về JSON hợp lệ theo schema được yêu cầu."
},
{
"role": "user",
"content": "{{benchmark_prompt}}"
}
],
"temperature": 0.2
}
Dùng biến môi trường để hoán đổi key:
MINIMAX_API_KEY=...
ANTHROPIC_API_KEY=...
OPENAI_API_KEY=...
Bạn cũng nên thêm assertion cho output. Ví dụ:
- response status là
200, - body có trường
root_cause, - body có trường
patch, - JSON parse được,
-
riskthuộclow,medium,high.
Ví dụ schema mong muốn:
{
"type": "object",
"required": ["root_cause", "patch", "tests", "risk"],
"properties": {
"root_cause": { "type": "string" },
"patch": { "type": "string" },
"tests": {
"type": "array",
"items": { "type": "string" }
},
"risk": {
"type": "string",
"enum": ["low", "medium", "high"]
}
}
}
Bạn có thể tải Apidog và chạy cùng một bộ prompt qua ba provider trong một workspace, thay vì viết nhiều script tạm thời.
Khi cần tích hợp M3 cụ thể, xem hướng dẫn cách sử dụng API MiniMax M3. Sau đó, việc thêm Opus 4.7 và GPT-5.5 vào cùng bộ test trong Apidog chỉ còn là nhân bản request và đổi endpoint/key.
Checklist trước khi chọn mô hình
Trước khi commit một mô hình vào hệ thống, hãy trả lời các câu hỏi này:
- Bạn có cần tự host không?
- Dữ liệu có được phép rời khỏi hạ tầng của bạn không?
- Workload chính là coding, document understanding, tool use hay chat?
- Agent trung bình chạy bao nhiêu bước?
- Tổng token mỗi task là bao nhiêu?
- Bạn có cần output JSON ổn định không?
- Bạn có test tự động để kiểm tra câu trả lời không?
- Bạn có fallback model khi request lỗi không?
- Bạn có log latency, token, cost theo task không?
- Bạn đã benchmark bằng dữ liệu thật chưa?
Một cấu hình production thực tế thường không chỉ dùng một mô hình:
simple_tasks -> model rẻ hơn
coding_agent -> model mạnh hơn
long_context_tasks -> model có context lớn
critical_review -> model đáng tin cậy nhất
fallback -> provider thứ hai
Câu hỏi thường gặp
MiniMax M3 có thực sự tốt hơn GPT-5.5 không?
Không thể kết luận tổng quát như vậy. Trên SWE-Bench Pro, MiniMax báo cáo M3 đạt 59,0%, cao hơn GPT-5.5. Nhưng trên PostTrainBench, GPT-5.5 đạt 0,39 trong khi M3 đạt 0,37. M3 có thể tốt hơn ở một số tác vụ mã hóa, nhưng không phải lúc nào cũng vượt GPT-5.5.
MiniMax M3 có phải mã nguồn mở không?
MiniMax mô tả M3 là mô hình trọng số mở. Trọng số và báo cáo kỹ thuật được dự kiến phát hành sau thông báo. Tuy nhiên, “trọng số mở” không luôn đồng nghĩa với giấy phép mã nguồn mở đầy đủ. Hãy đọc điều khoản phát hành khi MiniMax công bố.
M3 có thể thay thế Opus 4.7 cho coding agent không?
Có thể, đặc biệt nếu bạn cần tối ưu chi phí hoặc tự host. M3 có số liệu agent mạnh như 66,0% trên Terminal-Bench 2.1 và 74,2% trên MCP Atlas. Nhưng Opus 4.7 vẫn dẫn đầu PostTrainBench và có hồ sơ production rõ hơn. Cách an toàn là benchmark cả hai bằng workflow thật của bạn.
Các benchmark này có độc lập không?
Chủ yếu là chưa. Các số liệu trong bài phần lớn đến từ MiniMax. Bạn nên kiểm tra thêm trên các bảng xếp hạng công khai như SWE-Bench khi bên thứ ba chạy M3.
Điểm hạn chế của context 1M token là gì?
Context lớn giúp đưa nhiều code và tài liệu vào prompt hơn, nhưng vẫn có chi phí. Mỗi token đều ảnh hưởng đến latency và chi phí trong vòng lặp agent. Ngay cả khi MSA giúp giảm chi phí tính toán, bạn vẫn nên retrieve context chọn lọc và tóm tắt state.
Làm thế nào để so sánh cả ba mà chưa cần commit?
Chạy cùng một prompt qua API của từng mô hình, đo output, latency, token usage và khả năng tuân thủ schema. Một project Apidog với một request cho mỗi provider là cách nhanh để so sánh song song mà không cần viết script riêng.
Tổng kết
MiniMax M3 là một trong những thách thức trọng số mở đáng chú ý nhất với các mô hình tiên phong đóng. Nếu tuyên bố SWE-Bench Pro được xác nhận độc lập, kỳ vọng về coding model tự host sẽ thay đổi đáng kể.
Tuy nhiên, dữ liệu hiện chủ yếu đến từ MiniMax, và PostTrainBench cho thấy Opus 4.7 cùng GPT-5.5 vẫn có lợi thế ở một số khía cạnh. Chọn M3 nếu chi phí, tự host hoặc kiểm soát dữ liệu là ưu tiên. Chọn Opus 4.7 nếu bạn cần độ tin cậy đã được kiểm chứng. Chọn GPT-5.5 nếu hệ thống của bạn đã nằm trong hệ sinh thái OpenAI.
Quan trọng nhất: hãy benchmark bằng prompt, codebase và workflow thật của bạn. Với LLM trong production, workload của bạn mới là benchmark có giá trị nhất.
Top comments (0)