Sebastian Petrus

Posted on Jun 1 • Originally published at apidog.com

MiniMax M3 Là Gì? Mô Hình Mã Nguồn Mở Tiên Phong

MiniMax M3 là một mô hình AI mã nguồn mở open-weight được MiniMax phát hành ngày 1 tháng 6 năm 2026. Điểm đáng chú ý của M3 là nó gom ba năng lực thường tách rời vào cùng một hệ thống: lập trình cấp độ cao, cửa sổ ngữ cảnh lên đến 1.000.000 token, và đa phương tiện gốc cho hình ảnh, video, thậm chí cả thao tác trên máy tính để bàn.

Dùng thử Apidog hôm nay

Nói ngắn gọn: M3 hướng đến các workflow agent dài hơi. Bạn có thể đưa vào một codebase lớn, tài liệu dài, ảnh/video đầu vào, rồi để mô hình phân tích, gọi công cụ, sửa mã hoặc thao tác phần mềm. Nếu bạn đã theo dõi các mô hình mở như Qwen 3.7, M3 là một bước tiếp theo đáng chú ý. Các thông tin trong bài dựa trên thông báo MiniMax M3.

Bài viết này tập trung vào phần triển khai: M3 khác gì, benchmark MiniMax đã công bố, kiến trúc MSA giúp giảm chi phí ngữ cảnh dài ra sao, bạn có thể xây gì với nó, và cách gọi API.

💡 Nếu bạn định tích hợp M3 vào ứng dụng, hãy chuẩn bị sẵn quy trình kiểm thử API và tool calling. Các công cụ như Apidog có thể giúp bạn kiểm tra request, response schema và lỗi gọi hàm trước khi đưa agent vào production.

Điều gì làm M3 khác biệt

Nhiều mô hình mạnh buộc bạn phải đánh đổi:

Mạnh về coding nhưng context ngắn.
Context dài nhưng chi phí cao.
Có multimodal nhưng không tối ưu cho software agent.
Có khả năng agent nhưng không mở trọng số.

M3 cố gắng gom các phần đó vào một mô hình open-weight duy nhất.

Ba điểm chính:

Lập trình cấp độ cao: M3 được MiniMax định vị ở nhóm cạnh tranh với các mô hình đóng mạnh trên benchmark coding và software agent.
Ngữ cảnh 1 triệu token: phù hợp để đưa vào một repository lớn, nhiều file tài liệu, log dài hoặc lịch sử hội thoại lớn.
Đa phương tiện gốc: nhận hình ảnh và video làm đầu vào. MiniMax cũng demo khả năng điều khiển ứng dụng desktop, ví dụ mở ERP cục bộ và nhập hóa đơn hàng loạt.

Khi bộ trọng số được công khai, bạn có thể tự host cho các workload nhạy cảm dữ liệu, tinh chỉnh theo miền riêng, hoặc giảm phụ thuộc vào API vendor. Bối cảnh này cũng phù hợp với xu hướng trong cuộc chiến giá LLM của Trung Quốc năm 2026, nơi các phòng lab đẩy mạnh cả năng lực lẫn giá thành.

Các con số benchmark quan trọng

MiniMax đã công bố một số benchmark khi ra mắt. Đây là số liệu do nhà cung cấp báo cáo, chưa phải kết quả độc lập từ bên thứ ba, nên nên dùng như dữ liệu tham khảo ban đầu.

Điểm đáng chú ý nhất là SWE-Bench Pro 59,0%. SWE-Bench Pro là benchmark cho các tác vụ kỹ thuật phần mềm thực tế, khó và chống nhiễm bẩn dữ liệu. Bạn có thể xem thêm tại trang dự án SWE-Bench.

Theo MiniMax, M3 vượt GPT-5.5 và Gemini 3.1 Pro trên SWE-Bench Pro, đồng thời tiến gần Claude Opus 4.7. Với một mô hình open-weight, đây là tuyên bố đáng chú ý.

Tuy nhiên, M3 không dẫn đầu ở mọi nơi. Trên PostTrainBench, MiniMax báo cáo M3 đạt 0,37, thấp hơn Claude Opus 4.7 0,42 và GPT-5.5 0,39. Đây là điểm cần lưu ý nếu workload của bạn phụ thuộc nhiều vào khả năng post-training hoặc instruction-following nâng cao.

Một thông tin MiniMax chưa công bố là:

Tổng số tham số.
Số tham số hoạt động.
Chi tiết đầy đủ về hạ tầng huấn luyện và inference.

Các thông tin này được kỳ vọng xuất hiện trong báo cáo kỹ thuật. Nếu bạn cần so sánh trực tiếp với mô hình đóng, xem thêm MiniMax M3 vs Opus 4.7 vs GPT-5.5.

Kiến trúc MSA: vì sao context dài rẻ hơn

M3 dùng MSA, viết tắt của MiniMax Sparse Attention.

Trong attention tiêu chuẩn, mỗi token có thể phải so sánh với mọi token khác. Khi context tăng lên hàng trăm nghìn hoặc một triệu token, chi phí tính toán tăng rất nhanh.

Sparse attention thay đổi cách tính toán: mỗi token chỉ chú ý đến một tập con được chọn của chuỗi thay vì toàn bộ chuỗi. Theo MiniMax, MSA giúp giảm chi phí tính toán trên mỗi token xuống khoảng 1/20 so với mô hình thế hệ trước của họ.

MiniMax cũng báo cáo cải thiện ở hai giai đoạn inference:

Prefill: nhanh hơn hơn 9 lần.
Decode: nhanh hơn hơn 15 lần.

Về triển khai thực tế, điều này quan trọng ở các workflow như:

Đưa toàn bộ repository vào prompt để phân tích kiến trúc.
Đọc nhiều file log dài để debug incident.
Phân tích tài liệu pháp lý/kỹ thuật dài.
Chạy agent nhiều vòng: đọc → gọi tool → đọc kết quả → sửa → kiểm tra.

Với context dài rẻ hơn, bạn không nhất thiết phải chia nhỏ tài liệu quá sớm. Tuy nhiên, trong production, bạn vẫn nên cân nhắc kết hợp:

Context dài cho dữ liệu có liên quan trực tiếp.
RAG hoặc indexing cho kho dữ liệu rất lớn.
Cache hoặc tóm tắt trung gian cho workflow lặp lại.

Bạn có thể xây gì với M3?

M3 phù hợp nhất với các tác vụ agent dài hạn, nơi mô hình không chỉ trả lời một prompt mà phải hoàn thành một chuỗi công việc.

MiniMax đã demo một số trường hợp:

Tối ưu CUDA kernel trong 24 giờ: M3 tự làm việc trên kernel và đạt tốc độ tăng 9,4 lần.
Tái tạo bài báo nghiên cứu: M3 thực hiện qua 18 commit và tạo 23 hình ảnh thử nghiệm.
Sử dụng máy tính: M3 thao tác trực tiếp ứng dụng desktop, ví dụ mở ERP cục bộ và nhập hóa đơn hàng loạt.

Các use case thực tế cho developer:

Codebase agent

Đưa vào nhiều file trong repository, yêu cầu M3:

Tìm bug.
Đề xuất refactor.
Viết test.
Tạo migration.
Review pull request.

API/tool-calling agent

Cho M3 gọi các tool nội bộ như:

Search service.
Database query.
Issue tracker.
CI/CD.
API gateway.

Document automation

Dùng context dài để xử lý:

Tài liệu kỹ thuật.
Hợp đồng.
Log vận hành.
Spec sản phẩm.
Transcript cuộc họp.

Desktop automation

Với khả năng computer use, M3 có thể phù hợp cho các tác vụ có UI cũ hoặc chưa có API rõ ràng, ví dụ nhập liệu vào phần mềm nội bộ.

MiniMax cũng giới thiệu MiniMax Code, trong đó có Agent Team hỗ trợ workflow đa giai đoạn, chạy song song và điều chỉnh linh hoạt. Một pattern đáng chú ý là Producer + Verifier:

Producer tạo mã, patch hoặc output.
Verifier kiểm tra output trước khi chấp nhận.

Pattern này hữu ích vì agent một lượt thường dễ tạo lỗi âm thầm. Với một bước xác minh riêng, bạn có thể giảm rủi ro trước khi merge hoặc chạy production action.

Kiểm thử tool calling trước khi đưa vào production

Nếu bạn xây agent trên M3, phần khó thường không chỉ nằm ở model. Vấn đề hay gặp là kết nối giữa model và tool:

Model gọi sai tên function.
JSON arguments sai schema.
Trường bắt buộc bị thiếu.
Response từ tool không đúng định dạng model kỳ vọng.
Một lỗi nhỏ làm workflow nhiều bước bị dừng.

Một quy trình thực tế nên có:

Định nghĩa schema cho từng tool.
Gửi request thử đến M3.
Ghi lại tool call mà model sinh ra.
Validate JSON schema.
Mock response từ tool.
Kiểm tra vòng tiếp theo của agent.
Chỉ kết nối tool thật sau khi schema ổn định.

Bạn có thể dùng Apidog để gửi request, kiểm tra response, lưu collection và validate cấu trúc API. Nếu bạn đang thiết kế workflow agent, bài kết nối công cụ quy trình làm việc tác tử: các mẫu và cạm bẫy cũng là tài liệu tham khảo hữu ích.

Cách truy cập M3

Hiện tại, MiniMax cung cấp hai hướng truy cập:

Gói token thuê bao.
API.

Các gói thuê bao bao gồm hạn mức token hàng tháng.

Với API, MiniMax dùng giao diện chat completion theo phong cách OpenAI:

Base URL: https://api.minimax.io/v1
Endpoint: POST /chat/completions
Model ID: MiniMax-M3
Auth: Bearer token

Ví dụ HTTP tối thiểu:

POST https://api.minimax.io/v1/chat/completions
Authorization: Bearer $API_KEY
Content-Type: application/json

Một request JSON cơ bản có thể có dạng:

{
  "model": "MiniMax-M3",
  "messages": [
    {
      "role": "system",
      "content": "Bạn là một trợ lý lập trình viên."
    },
    {
      "role": "user",
      "content": "Hãy review đoạn code này và đề xuất cách tối ưu."
    }
  ]
}

Bạn có thể gọi API bằng:

HTTP thuần.
SDK tương thích OpenAI.
Anthropic SDK theo tuyến đường MiniMax khuyến nghị.

Xem schema đầy đủ trong tài liệu tham khảo API chính thức của MiniMax.

Lưu ý về giá và context dài

MiniMax cho biết API có hai mức tính phí theo độ dài đầu vào:

Input từ 512K token trở xuống: mức tiêu chuẩn.
Input vượt 512K token: mức ngữ cảnh dài cao hơn.

Ngoài ra còn có hai cấp dịch vụ:

Standard: mặc định.
Priority: ưu tiên.

MiniMax chưa công bố giá chính xác trên mỗi token trong nội dung được trích dẫn, vì vậy trước khi lập ngân sách bạn nên kiểm tra tài liệu hiện tại.

Nếu bạn mới bắt đầu, quy trình an toàn là:

Gọi API với prompt nhỏ.
Kiểm tra latency và response format.
Thêm tool calling nếu cần.
Tăng dần context.
Theo dõi chi phí khi vượt 512K token.
Chỉ dùng 1M context cho workload thật sự cần.

Để xem hướng dẫn thiết lập chi tiết hơn, đọc cách sử dụng API MiniMax M3. Nếu bạn muốn thử không tốn phí, xem cách sử dụng MiniMax M3 miễn phí. Sau khi có API key, bạn có thể Tải Apidog để gửi request đầu tiên và kiểm tra response trước khi viết code ứng dụng.

M3 so với các mô hình mã nguồn mở khác

M3 xuất hiện trong một nhóm mô hình mở đang cạnh tranh mạnh, bao gồm DeepSeek V4-pro, Qwen 3.7, Kimi k2.6 và GLM-5.1. Mỗi mô hình có thế mạnh riêng về coding, reasoning, đa ngôn ngữ hoặc chi phí.

Điểm khác biệt của M3 không nằm ở một benchmark đơn lẻ, mà ở tổ hợp:

Coding mạnh.
Context 1 triệu token.
Multimodal gốc.
Computer use.
Open-weight.

Rất ít mô hình mở kết hợp toàn bộ các điểm này trong cùng một package. Tuy vậy, cần chờ:

Bộ trọng số chính thức.
Báo cáo kỹ thuật.
Benchmark độc lập.
Đánh giá chi phí inference thực tế.

Nếu bạn đang dùng Qwen hoặc muốn có điểm tham chiếu, xem tổng quan về Qwen 3.7.

Câu hỏi thường gặp

MiniMax M3 có phải mã nguồn mở không?

M3 là mô hình open-weight. MiniMax đã hứa công bố bộ trọng số và báo cáo kỹ thuật trong khoảng 10 ngày kể từ ngày ra mắt 1 tháng 6 năm 2026. Tại thời điểm viết bài, bộ trọng số chưa được phát hành, nên bạn chưa thể tải về và tự host ngay.

Cửa sổ ngữ cảnh của M3 là bao nhiêu?

Lên đến 1.000.000 token. Kiến trúc MSA giúp giảm chi phí tính toán trên mỗi token xuống khoảng 1/20 so với mô hình thế hệ trước của MiniMax.

MiniMax M3 có miễn phí không?

Không trực tiếp. MiniMax bán gói token thuê bao bắt đầu từ 20 USD/tháng cho gói Plus, và API được tính phí theo token. Không có gói miễn phí chính thức được MiniMax công bố trong nội dung này, nhưng bài cách sử dụng MiniMax M3 miễn phí đề cập các phương án không tốn phí hiện có.

M3 so với Claude Opus 4.7 như thế nào?

Theo benchmark do MiniMax báo cáo, M3 gần Claude Opus 4.7 trên SWE-Bench Pro với 59,0%, vượt trên SVG-Bench, nhưng thấp hơn trên PostTrainBench với 0,37 so với 0,42. Đây là số liệu từ nhà cung cấp, nên nên chờ kiểm thử độc lập.

Khi nào bộ trọng số M3 được phát hành?

MiniMax cam kết phát hành bộ trọng số mở và báo cáo kỹ thuật trong khoảng 10 ngày kể từ ngày ra mắt 1 tháng 6 năm 2026. Báo cáo kỹ thuật dự kiến cũng sẽ bổ sung số lượng tham số, hiện chưa được tiết lộ.

M3 có xử lý hình ảnh và video không?

Có. M3 là mô hình đa phương tiện gốc, nhận đầu vào hình ảnh và video. Nó cũng có khả năng computer use để thao tác trực tiếp với ứng dụng desktop.

Tóm tắt

MiniMax M3 là một mô hình open-weight đáng chú ý vì kết hợp coding mạnh, context 1 triệu token và multimodal gốc trong cùng một hệ thống. Kiến trúc MSA giúp giảm chi phí xử lý context dài, còn benchmark SWE-Bench Pro do MiniMax báo cáo đặt M3 gần nhóm mô hình đóng hàng đầu.

Nếu muốn thử triển khai, hãy bắt đầu nhỏ:

Lấy API key MiniMax.
Gửi request chat completion cơ bản.
Kiểm tra response schema.
Thêm tool calling.
Validate function arguments.
Tăng dần context và theo dõi chi phí.

Khi xây agent production, đừng chỉ kiểm tra prompt. Hãy kiểm tra cả API contract, tool schema và response format. Bạn có thể dùng Apidog để gửi request, lưu test case và phát hiện lỗi tích hợp trước khi workflow M3 chạy trên dữ liệu thật.

DEV Community