Sebastian Petrus

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus hay Max: Nên chọn mô hình Qwen 3.7 nào?

Alibaba đã ra mắt hai mẫu flagship trong dòng Qwen 3.7 trong vòng hai tuần: Qwen3.7-Max, mô hình lý luận chỉ dựa trên văn bản, và Qwen3.7-Plus, phiên bản đa phương thức có thêm khả năng nhìn với chi phí thấp hơn đáng kể. Cả hai cùng có ngữ cảnh 1M token và giới hạn chạy tự động 35 giờ, nên lựa chọn đúng phụ thuộc vào workload thực tế hơn là chỉ nhìn bảng thông số.

Dùng thử Apidog ngay hôm nay

Bài viết này so sánh Qwen 3.7 Plus và Qwen 3.7 Max theo điểm chuẩn, giá, tốc độ và cách chọn khi triển khai API. Nếu bạn cần đọc tổng quan trước, xem tổng quan về Qwen 3.7 Plus và bài Qwen 3.7 là gì. Dù chọn mẫu nào, bạn vẫn cần gọi API, kiểm tra payload, so sánh phản hồi và debug chuỗi tool call; đó là nơi Apidog hữu ích.

Trả lời ngắn gọn

Mặc định chọn Qwen 3.7 Plus.

Plus gần như ngang Max về coding và sử dụng công cụ, có thêm đầu vào hình ảnh/video, định vị GUI tốt hơn cho tác nhân thao tác màn hình, và rẻ hơn khoảng 5–6 lần tùy chiều input/output. Với hầu hết ứng dụng production, chênh lệch chi phí đã đủ để Plus là lựa chọn mặc định.

Chỉ chọn Qwen 3.7 Max khi workload của bạn thuần văn bản, không bao giờ cần ảnh chụp màn hình, hình ảnh tài liệu hoặc video, và bạn tối ưu mạnh cho độ trễ khởi động lạnh hoặc điểm text-only benchmark.

Khác biệt cốt lõi

Qwen 3.7 Max là mô hình flagship thuần văn bản. Nó phù hợp với các tác vụ như:

Lý luận bằng văn bản
Sinh và sửa mã
Tác nhân chạy chuỗi lệnh dài
Chatbot chỉ nhận text

Qwen 3.7 Plus dùng cùng nền tảng nhưng bổ sung khả năng nhìn. Nó có thể nhận:

Văn bản
Hình ảnh
Video
Ảnh chụp màn hình GUI

Điểm quan trọng là Plus có thể định vị giao diện đủ tốt để trả về tọa độ click từ ảnh chụp màn hình. Điều này biến Plus thành lựa chọn phù hợp hơn cho các tác nhân thao tác máy tính hoặc kiểm thử UI tự động.

Đổi lại, bạn chỉ hy sinh một phần nhỏ lợi thế về chất lượng văn bản và độ trễ của Max, nhưng nhận được khả năng đa phương thức cùng chi phí thấp hơn nhiều.

Điểm chuẩn

Các điểm benchmark cho thấy cùng một xu hướng: Plus hơi kém Max ở văn bản thuần túy, gần như hòa ở coding/tool use, và vượt trội khi cần thị giác.

Điểm chuẩn	Qwen 3.7 Plus	Qwen 3.7 Max
LM Arena, văn bản	#15	#13
LM Arena, mã hóa	#12	#10
Vision Arena	#16	Không áp dụng
SWE-Bench Pro	~60%	60.6%
Terminal-Bench, 2.0 Terminus	70.3	69.7
ScreenSpot Pro, định vị GUI	79.0	Không có
MCP-Atlas, sử dụng công cụ	76.4	76.4

Có ba điểm thực tế cần chú ý:

1. SWE-Bench Pro gần như hòa

Plus đạt khoảng 60%, Max đạt 60.6%. Với các tác vụ phần mềm thực tế, việc Plus có thêm khả năng thị giác không làm giảm đáng kể năng lực coding. Nếu bạn muốn so sánh rộng hơn với các flagship phương Tây, xem bài Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

2. Plus thắng nhẹ ở Terminal-Bench

Plus đạt 70.3 so với 69.7 của Max. Với các tác vụ agent chạy shell, mô hình rẻ hơn cũng nhỉnh hơn một chút.

3. Định vị GUI là khác biệt lớn nhất

ScreenSpot Pro 79.0 là điểm mạnh thực sự của Plus. Max không thể chạy benchmark này vì không nhận đầu vào hình ảnh. Nếu agent của bạn cần nhìn màn hình, phân tích UI hoặc trả về tọa độ thao tác, Plus là lựa chọn duy nhất trong hai mô hình.

Như mọi benchmark của nhà cung cấp, hãy dùng chúng làm tín hiệu ban đầu, không phải kết luận tuyệt đối. Trang SWE-bench giải thích rõ hơn từng bộ đo lường gì.

Giá cả

Đây là phần khiến quyết định nghiêng mạnh về Plus.

Chi phí	Qwen 3.7 Plus	Qwen 3.7 Max
Đầu vào / 1M token	$0.40	$2.50
Đầu ra / 1M token	$1.60	$7.50
Đầu vào cache / 1M token	$0.08	$0.25

Plus rẻ hơn khoảng sáu lần ở input và gần năm lần ở output. Với agent chạy dài, batch inference, phân loại văn bản khối lượng lớn hoặc workflow có nhiều lần retry, chênh lệch này sẽ quyết định ngân sách.

Lưu ý khi dùng Plus: hình ảnh và video cũng được token hóa và chia sẻ cùng cửa sổ ngữ cảnh 1M. Vì vậy workload nặng ảnh chụp màn hình hoặc video có thể tốn nhiều token hơn dự đoán nếu bạn gửi ảnh/video quá lớn.

Cách tối ưu thực tế:

Resize ảnh trước khi gửi.
Chỉ gửi vùng màn hình cần phân tích, không gửi toàn bộ nếu không cần.
Với video, lấy mẫu frame tiết kiệm.
Cache prompt hệ thống và context lặp lại nếu endpoint hỗ trợ.
Log token usage theo từng loại request để phát hiện trường hợp vượt chi phí.

Bạn có thể đọc thêm về giảm chi phí token tác nhân và cuộc chiến giá LLM Trung Quốc 2026. Giá chính thức nằm trên trang giá Model Studio.

Thông số kỹ thuật và tốc độ

Thông số	Qwen 3.7 Plus	Qwen 3.7 Max
Chế độ đầu vào	Văn bản, hình ảnh, video	Chỉ văn bản
Cửa sổ ngữ cảnh	1M, chia sẻ với thị giác	1M
Giới hạn chạy tự động	35 giờ	35 giờ
Độ trễ chỉ văn bản	Cơ bản	Nhanh hơn khoảng 7–15% khi khởi động lạnh
Trọng số	Độc quyền, chỉ API	Độc quyền, chỉ API

Max có lợi thế thầm lặng về độ trễ. Với workload text-only và sản phẩm chat nhạy cảm với thời gian tạo token đầu tiên, Max có thể đáng cân nhắc. Phân tích độc lập theo dõi chi tiết hơn quan hệ giữa tốc độ và năng lực mô hình.

Cả hai đều là mô hình đóng và chạy qua Alibaba Cloud Model Studio. Nếu yêu cầu của bạn là tải trọng số về để tự host, cả Plus và Max đều không phù hợp.

Cách chọn mô hình theo workload

Chọn Qwen 3.7 Plus nếu:

Bạn xử lý hình ảnh, ảnh chụp màn hình, PDF scan hoặc video.
Bạn xây dựng agent thao tác GUI hoặc đọc màn hình.
Chi phí inference là vấn đề.
Bạn cần so sánh hoặc trích xuất dữ liệu từ tài liệu trực quan.
Bạn chạy batch lớn hoặc agent dài nhiều bước.

Chọn Qwen 3.7 Max nếu:

Workload hoàn toàn là văn bản.
Bạn tối ưu cho điểm text-only benchmark.
Bạn cần độ trễ thấp hơn trong sản phẩm chat.
Bạn không bao giờ gửi đầu vào thị giác.
Bạn chấp nhận chi phí cao hơn để lấy lợi thế nhỏ về text quality/speed.

Bảng ánh xạ nhanh:

Workload	Lựa chọn	Lý do
QA ảnh chụp màn hình hoặc visual regression agent	Plus	Cần nhìn màn hình và định vị GUI
Trích xuất hóa đơn, biên lai hoặc PDF scan	Plus	Cần đầu vào hình ảnh
Phân loại văn bản khối lượng lớn	Plus	Chất lượng gần tương đương, chi phí thấp hơn nhiều
Chatbot hỗ trợ khách hàng nhạy cảm độ trễ	Max	Khởi động lạnh text-only nhanh hơn
Agent chạy mã tự động dài	Plus hoặc Max	Gần hòa ở SWE-Bench Pro; hãy để chi phí quyết định
Tool-calling agent	Plus hoặc Max	MCP-Atlas bằng nhau; Plus rẻ hơn
Agent thao tác trình duyệt hoặc desktop	Plus	Max không xử lý ảnh chụp màn hình

Quy tắc ngắn gọn: nếu workload không phải 100% text-only và cực kỳ nhạy độ trễ, hãy bắt đầu với Plus.

Cách benchmark nhanh bằng API

Vì cả hai dùng endpoint Model Studio tương thích OpenAI, bạn có thể giữ nguyên request và chỉ đổi model.

Ví dụ request text-only:

curl "$MODEL_STUDIO_ENDPOINT/chat/completions" \
  -H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.7-plus",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là trợ lý kỹ thuật, trả lời ngắn gọn và có ví dụ."
      },
      {
        "role": "user",
        "content": "Viết hàm JavaScript debounce và giải thích cách dùng."
      }
    ]
  }'

Để so sánh với Max, chỉ đổi một dòng:

{
  "model": "qwen3.7-max"
}

Một quy trình benchmark thực tế cho team dev:

Chọn 20–50 prompt đại diện cho production.
Chạy cùng prompt với qwen3.7-plus và qwen3.7-max.
Ghi lại:
- Latency
- Token input/output
- Chi phí ước tính
- Tỷ lệ câu trả lời đạt yêu cầu
- Tỷ lệ cần retry
Với tác vụ coding, chấm bằng test case thay vì cảm tính.
Với tác vụ agent, log toàn bộ tool call và lỗi trung gian.
Chỉ chọn Max nếu lợi thế chất lượng hoặc độ trễ đủ bù chi phí.

Ví dụ pseudo-code:

const models = ["qwen3.7-plus", "qwen3.7-max"];

for (const model of models) {
  const started = Date.now();

  const res = await fetch(`${process.env.MODEL_STUDIO_ENDPOINT}/chat/completions`, {
    method: "POST",
    headers: {
      Authorization: `Bearer ${process.env.MODEL_STUDIO_API_KEY}`,
      "Content-Type": "application/json",
    },
    body: JSON.stringify({
      model,
      messages: [
        { role: "user", content: "Tóm tắt issue này và đề xuất hướng sửa." },
      ],
    }),
  });

  const data = await res.json();

  console.log({
    model,
    latencyMs: Date.now() - started,
    usage: data.usage,
    output: data.choices?.[0]?.message?.content,
  });
}

Kiểm tra cả hai bằng Apidog

Cả Plus và Max dùng cùng kiểu endpoint tương thích OpenAI, nên việc chuyển đổi giữa hai mô hình chỉ là đổi model ID. Điều này phù hợp để kiểm thử trực tiếp: gửi cùng request tới qwen3.7-plus và qwen3.7-max, đặt phản hồi cạnh nhau, rồi quyết định mô hình nào xứng đáng với chi phí.

Với Apidog, bạn có thể:

Tạo request tới endpoint Model Studio.
Lưu API key theo từng environment.
So sánh JSON response của Plus và Max.
Mock endpoint để frontend/backend tiếp tục phát triển khi model chưa sẵn sàng.
Debug chuỗi tool call trong agent.
Lưu bộ test case để chạy lại khi đổi model hoặc prompt.

Với request đa phương thức cho Plus, xem hướng dẫn API Qwen 3.7 Plus để kiểm tra định dạng payload hình ảnh và video. Với luồng text-only, xem hướng dẫn API Qwen 3.7. Nếu agent của bạn gọi nhiều công cụ trong một phiên chạy, trình gỡ lỗi tác nhân AI của Apidog giúp xem toàn bộ chuỗi.

Tải xuống Apidog để kiểm tra và so sánh cả hai mô hình Qwen 3.7 trước khi đưa vào production.

Câu hỏi thường gặp

Qwen 3.7 Plus có tốt hơn Max không?

Với hầu hết workload, có. Plus có thêm khả năng nhìn, chi phí thấp hơn nhiều, trong khi vẫn gần như ngang Max ở coding và tool use. Max chỉ giữ lợi thế nhỏ ở text-only benchmark và độ trễ văn bản.

Plus rẻ hơn bao nhiêu?

Plus rẻ hơn khoảng sáu lần ở input: $0.40 so với $2.50 cho mỗi triệu token. Ở output, Plus rẻ hơn gần năm lần: $1.60 so với $7.50 cho mỗi triệu token.

Hai mô hình có cùng cửa sổ ngữ cảnh không?

Có. Cả hai đều có cửa sổ ngữ cảnh 1M token. Trên Plus, hình ảnh và video cũng tiêu thụ token từ cùng ngân sách đó.

Max có xử lý hình ảnh không?

Không. Max chỉ xử lý văn bản. Nếu bạn cần hình ảnh, video, ảnh chụp màn hình hoặc tài liệu scan, hãy dùng Plus.

Cả hai có phải mã nguồn mở không?

Không. Cả hai đều là mô hình độc quyền và chỉ chạy qua Alibaba Cloud Model Studio. Bạn không thể tải xuống hoặc tự host trọng số.

Mô hình nào nhanh hơn?

Max nhanh hơn khoảng 7–15% khi khởi động lạnh với text-only request. Với workload có hình ảnh hoặc GUI, Plus là lựa chọn duy nhất.

Tổng kết

Qwen 3.7 Max và Qwen 3.7 Plus không phục vụ cùng một kiểu workload. Max là lựa chọn chuyên biệt cho văn bản thuần túy, có lợi thế nhỏ về tốc độ và chất lượng text-only. Plus là lựa chọn tổng quát hơn: đa phương thức, rẻ hơn nhiều và phù hợp hơn với phần lớn ứng dụng agent hiện đại.

Bắt đầu với Qwen 3.7 Plus. Chỉ chuyển sang Qwen 3.7 Max khi workload của bạn hoàn toàn là văn bản, nhạy cảm độ trễ và lợi thế nhỏ của Max thực sự bù được chi phí cao hơn. Trước khi triển khai, hãy kiểm thử API trong Apidog để xác nhận chất lượng, latency và chi phí trên dữ liệu thật của bạn.

DEV Community