DEV Community

Cover image for API Qwen3.6-Plus: Vượt Trội Claude Trên Benchmarks
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

API Qwen3.6-Plus: Vượt Trội Claude Trên Benchmarks

TÓM TẮT

Qwen3.6-Plus đã chính thức ra mắt với hiệu suất mạnh trên nhiều benchmark: 78,8% SWE-bench Verified, 61,6% Terminal-Bench 2.0 – vượt Claude Opus 4.5. Mô hình hỗ trợ cửa sổ ngữ cảnh 1 triệu token, tham số preserve_thinking mới cho agent loop, và hoạt động trực tiếp với Claude Code, OpenClaw, Qwen Code qua API tương thích OpenAI.

Hãy thử Apidog ngay hôm nay

Bài viết này tập trung vào điểm mới, hướng dẫn gọi API Qwen3.6-Plus, cấu hình tích hợp thực tế và cách xác thực bằng Apidog trước khi triển khai vào quy trình tự động hóa.

Từ bản xem trước đến bản phát hành

Nếu bạn từng tham khảo hướng dẫn Qwen 3.6 Plus Preview trên OpenRouter, bạn đã biết các khả năng của mô hình này. Bản xem trước từng được phát hành miễn phí, không cần danh sách chờ, qua OpenRouter và đã xử lý hơn 400 triệu token chỉ trong hai ngày đầu.

Ở bản chính thức, Qwen3.6-Plus được đưa lên Alibaba Cloud Model Studio với API ổn định, SLA đảm bảo và tham số API mới, tối ưu hơn cho các tác vụ agent đa bước.

Dưới đây là các thay đổi thực tế, mẫu gọi API, và quy trình kiểm thử tích hợp với Apidog.

Qwen3.6-Plus là gì

Qwen3.6-Plus là mô hình mixture-of-experts (MoE) do nhóm Qwen – Alibaba phát triển. Tương tự Qwen3.5, nó sử dụng sparse activation, chỉ kích hoạt một phần nhỏ tham số mỗi token, giúp tiết kiệm chi phí tính toán nhưng giữ hiệu suất cao.

Thông số kỹ thuật nổi bật:

  • Cửa sổ ngữ cảnh mặc định: 1 triệu token
  • Hỗ trợ chain-of-thought reasoning bắt buộc
  • Tham số preserve_thinking cho agentic tasks
  • Hỗ trợ đa phương thức (thị giác, video, tài liệu)
  • API tương thích OpenAI, Anthropic và OpenAI function call

Các bản open-source nhẹ hơn sẽ ra mắt sớm. Trọng số self-host đang được phát triển.

Kết quả benchmark

Tác nhân mã hóa

Qwen3.6-Plus chỉ xếp sau Claude Opus 4.5 ở SWE-bench, nhưng vượt trội ở các tác vụ terminal thực tế.

Terminal Benchmark

  • Terminal-Bench 2.0: Kiểm thử thực tế trên shell (quản lý file, process, workflow dài, 32 CPU/48GB RAM/3h timeout). Qwen3.6-Plus: 61,6% (Claude Opus 4.5 chỉ 59,3%).

Agent đa năng & gọi công cụ

Chỉ số Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%
  • MCPMark: Dẫn đầu về gọi công cụ MCP – cực kỳ quan trọng khi xây dựng workflow dựa trên GitHub MCP.
  • DeepPlanning: Qwen3.6-Plus vượt trội trong các tác vụ lập kế hoạch dài hạn.

Khả năng suy luận & kiến thức

Chỉ số Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%
  • GPQA/IFEval: Dẫn đầu về reasoning và tuân thủ format – rất quan trọng khi cần đầu ra có cấu trúc, ít sai lệch.

Đa phương thức

Chỉ số Qwen3.6-Plus Ghi chú
OmniDocBench 1.5 91.2% Dẫn đầu
RefCOCO avg 93.5% Dẫn đầu
We-Math 89.0% Dẫn đầu
CountBench 97.6% Dẫn đầu
OSWorld-Verified 62.5% Thua Claude (66.3%)

Qwen3.6-Plus dẫn đầu về nhận diện tài liệu, không gian, đối tượng; chỉ OSWorld-Verified là Claude nhỉnh hơn.

Hướng dẫn gọi API

Qwen3.6-Plus đã khả dụng trên Alibaba Cloud Model Studio. Đăng ký và lấy API key tại modelstudio.alibabacloud.com.

Base URL theo khu vực:

  • Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Bắc Kinh: https://dashscope.aliyuncs.com/compatible-mode/v1
  • Virginia, US: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Gọi API cơ bản với streaming

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

Tham số preserve_thinking

Ở bản chính thức, tham số preserve_thinking cho phép mô hình giữ lại chuỗi reasoning từ mọi lượt trước. Rất hữu dụng cho agent loop nhiều bước.

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True,  # giữ reasoning xuyên suốt các lượt
    },
    stream=True
)
Enter fullscreen mode Exit fullscreen mode

Lưu ý: Tắt mặc định để tiết kiệm token. Hãy bật khi xây agent đa bước.

Sử dụng Qwen3.6-Plus với Claude Code

API Qwen hỗ trợ giao thức Anthropic. Chỉ cần đổi biến môi trường, không cần sửa code.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude
Enter fullscreen mode Exit fullscreen mode

Sử dụng Qwen3.6-Plus với OpenClaw

OpenClaw là agent code open-source self-hosted.

# Cài đặt (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Enter fullscreen mode Exit fullscreen mode

Chỉnh sửa ~/.openclaw/openclaw.json (hợp nhất, không ghi đè):

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}
Enter fullscreen mode Exit fullscreen mode

Sử dụng Qwen3.6-Plus với Qwen Code

Qwen Code là agent terminal open-source của Alibaba, tặng 1.000 request miễn phí/ngày qua OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Gõ /auth để đăng nhập và kích hoạt gói miễn phí
Enter fullscreen mode Exit fullscreen mode

Giải thích thực tiễn về preserve_thinking cho agent

Thông thường, mỗi lượt với LLM là độc lập, reasoning không được giữ lại. Điều này gây khó khăn cho agent đa bước: các quyết định trước không truyền được sang bước sau.

preserve_thinking: true sẽ giữ toàn bộ reasoning của các lượt trước, giúp agent hành động logic, nhất quán, không lặp lại reasoning thừa, tiết kiệm token.

Mẫu code agent loop:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Ví dụ agent đa bước
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")
Enter fullscreen mode Exit fullscreen mode

Nếu không có preserve_thinking, bước 3 sẽ không biết 3 vấn đề ở bước 1. Có preserve_thinking, reasoning liền mạch.

Ứng dụng tối ưu của Qwen3.6-Plus

  • Sửa lỗi cấp kho lưu trữ: SWE-bench Verified 78,8% – cạnh tranh top hiện nay.
  • Tự động hóa terminal: Terminal-Bench 2.0 dẫn đầu – tối ưu cho workflow shell, quản lý file/process/build.
  • Gọi công cụ MCP: MCPMark 48,2% – tốt nhất cho tích hợp GitHub MCP.
  • Phân tích tài liệu dài: Context 1 triệu token, điểm LongBench v2 cao – có thể kiểm tra toàn bộ codebase hoặc tài liệu lớn trong một lần gọi.
  • Sinh mã frontend: Điểm Elo QwenWebBench 1501,7 – tương đương Claude Opus 4.5.
  • Đa ngôn ngữ: WMT24++ 84,3%, MAXIFE 88,2% trên 23 ngôn ngữ – mạnh với use case không phải tiếng Anh.

Kiểm thử API Qwen3.6-Plus với Apidog

Điểm cuối Qwen3.6-Plus tương thích OpenAI – nhập trực tiếp vào Apidog để kiểm thử.

Apidog test

Thiết lập:

  • Gửi POST tới: https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
  • Header: Authorization: Bearer {{DASHSCOPE_API_KEY}}

Xác nhận phản hồi mẫu:

pm.test("Response contains choices", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});
Enter fullscreen mode Exit fullscreen mode

Tips thực tiễn:

  • Sử dụng Smart Mock của Apidog để tạo phản hồi kiểm thử, không cần gọi API thật khi dev.
  • Nếu xây agent đa lượt, tạo Test Scenario trong Apidog để chuỗi nhiều request, xác thực việc preserve_thinking giữ reasoning qua lượt.
  • Tải Apidog miễn phí để thiết lập nhanh test này.

Roadmap

Nhóm Qwen xác nhận sẽ ra mắt các bản open-source nhẹ hơn trong vài ngày tới, theo mô hình Qwen3.5 (Apache 2.0, trọng số công khai).

Lộ trình:

  • Nâng cấp khả năng agent cho các tác vụ repository đa file, dài hạn.
  • Phát triển agent đa phương thức (GUI agent, visual coding) trở thành core feature.

Các bản open-source Qwen3.5 từng lọt top mô hình self-host chỉ sau vài tuần. Qwen3.6 dự báo cũng sẽ trở thành lựa chọn mặc định cho agent code tự lưu trữ.

Kết luận

Qwen3.6-Plus thu hẹp khoảng cách với Claude Opus 4.5 ở các benchmark code, vượt trội về terminal, MCP, và planning dài hạn. Context 1 triệu token, tương thích Anthropic, và preserve_thinking giúp agent production thực sự đáng tin cậy.

Tips kiểm thử:

Sử dụng Apidog để nhập endpoint, viết assert, mock khi dev, và chạy test hồi quy mỗi khi cập nhật mô hình hoặc API version.

Câu hỏi thường gặp

Qwen3.6-Plus khác gì bản preview?

Bản preview (qwen/qwen3.6-plus-preview) trên OpenRouter chỉ là thử nghiệm. Bản chính thức có thêm preserve_thinking, SLA uptime, hỗ trợ đầy đủ Model Studio và sắp có bản open-source nhẹ hơn.

preserve_thinking là gì, khi nào nên dùng?

Mặc định chỉ giữ reasoning lượt hiện tại. Khi bật preserve_thinking: true, mô hình giữ toàn bộ chuỗi reasoning trước đó – nên dùng cho agent loop đa bước.

So với Claude Opus 4.5 thế nào?

Claude Opus 4.5 mạnh hơn ở SWE-bench Verified (80,9% vs 78,8%) và OSWorld-Verified (66,3% vs 62,5%). Qwen3.6-Plus dẫn ở Terminal-Bench 2.0, MCPMark, DeepPlanning, GPQA.

Có dùng được với Claude Code không?

Có. Đổi biến môi trường trỏ về endpoint Anthropic của Dashscope, dùng model qwen3.6-plus và API key Dashscope.

Qwen3.6-Plus có open-source không?

API model chưa open-source. Các bản nhẹ hơn với trọng số public sẽ ra mắt rất sớm.

Cách lấy quyền truy cập miễn phí?

Cài Qwen Code (npm install -g @qwen-code/qwen-code@latest), chạy qwen, /auth đăng nhập bằng OAuth để nhận 1.000 request/ngày miễn phí.

Hỗ trợ context tối đa bao nhiêu?

Mặc định 1.000.000 token/lượt. Một số báo cáo benchmark dùng 256K để so sánh, nhưng API hỗ trợ 1M.

Làm sao kiểm thử API trước khi triển khai thực tế?

Nhập endpoint vào Apidog, cấu hình API key, viết assert, dùng Smart Mock để dev offline, tạo Test Scenario để kiểm tra hành vi agent đa lượt end-to-end.

Top comments (0)