DEV Community

Cover image for API Qwen3.6-Plus: Ungguli Claude dalam Benchmark Terminal
Walse
Walse

Posted on • Originally published at apidog.com

API Qwen3.6-Plus: Ungguli Claude dalam Benchmark Terminal

Inti Singkat

Qwen3.6-Plus resmi diluncurkan. Model ini mencapai skor 78,8% pada SWE-bench Verified dan 61,6% pada Terminal-Bench 2.0, melampaui Claude Opus 4.5. Dengan jendela konteks 1 juta token, parameter preserve_thinking baru untuk loop agen, serta kompatibilitas API OpenAI, model ini siap digunakan di berbagai skenario automasi pengembangan.

Coba Apidog hari ini

Dari Pratinjau ke Rilis

Jika Anda sudah mengikuti panduan Qwen 3.6 Plus Preview di OpenRouter, Anda pasti paham kemampuannya. Versi pratinjau rilis diam-diam pada 30 Maret, tanpa daftar tunggu, gratis lewat OpenRouter. Dalam dua hari, model ini memproses 400 juta token dari 400.000 permintaan.

Kini, rilis resmi membawa versi produksi penuh: tersedia di Alibaba Cloud Model Studio, API stabil, SLA uptime, dan parameter baru untuk tugas agen multi-langkah.

Panduan ini membahas perubahan utama, cara pemanggilan API yang benar, serta pengujian integrasi dengan Apidog sebelum deployment.

Apa itu Qwen3.6-Plus

Qwen3.6-Plus adalah model mixture-of-experts dari tim Qwen Alibaba. Seperti Qwen3.5, model ini memakai sparse activation—hanya sebagian parameter aktif per token—sehingga performa tinggi bisa dicapai tanpa biaya komputasi besar seperti dense model.

Spesifikasi utama:

  • Jendela konteks 1 juta token
  • Chain-of-thought wajib
  • Parameter preserve_thinking untuk tugas agensi
  • Dukungan multimodal: penglihatan, video, dokumen
  • API kompatibel OpenAI, Anthropic, dan OpenAI Responses

Varian open-source ukuran kecil akan segera tersedia. Jika butuh model self-hosted, tunggu update-nya.

Hasil Benchmark

Agen Pengkodean

Qwen3.6-Plus sedikit di belakang Claude Opus 4.5 pada SWE-bench, tapi memimpin operasi terminal.

Terminal-Bench 2.0

Terminal-Bench 2.0 menguji operasi shell nyata: manajemen file, kontrol proses, alur kerja terminal multi-langkah dalam 3 jam, 32 inti CPU, 48GB RAM. Skor 61,6% vs 59,3% (Claude Opus 4.5) adalah selisih signifikan untuk tugas developer.

Agen Umum & Penggunaan Alat

Benchmark Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70,2% 70,7%
DeepPlanning 33,9% 41,5%
MCPMark 42,3% 48,2%
MCP-Atlas 71,8% 74,1%
WideSearch 76,4% 74,3%

MCPMark menguji pemanggilan alat GitHub MCP v0.30.3. Qwen3.6-Plus unggul di MCP dan DeepPlanning, penting untuk workflow berbasis MCP dan perencanaan jangka panjang.

Penalaran & Pengetahuan

Benchmark Claude Opus 4.5 Qwen3.6-Plus
GPQA 87,0% 90,4%
LiveCodeBench v6 84,8% 87,1%
IFEval strict 90,9% 94,3%
MMLU-Pro 89,5% 88,5%

Qwen3.6-Plus memimpin pada GPQA dan IFEval strict—krusial untuk output terstruktur dan tugas agensi dengan instruksi kompleks.

Multimodal

Benchmark Qwen3.6-Plus Catatan
OmniDocBench 1.5 91,2% Teratas di tabel
RefCOCO avg 93,5% Teratas di tabel
We-Math 89,0% Teratas di tabel
CountBench 97,6% Teratas di tabel
OSWorld-Verified 62,5% Di bawah Claude (66,3%)

Qwen3.6-Plus unggul di tugas pemahaman dokumen dan deteksi objek, namun sedikit di bawah Claude pada OSWorld-Verified (desktop automation).

Cara Memanggil API

Qwen3.6-Plus tersedia di Alibaba Cloud Model Studio. Dapatkan API key di modelstudio.alibabacloud.com.

Endpoint regional:

  • Singapura: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
  • US Virginia: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Panggilan Dasar dengan Streaming

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Tinjau fungsi Python ini dan temukan bug."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

Parameter preserve_thinking

Pada versi pratinjau, penalaran hanya disimpan untuk giliran saat ini. Rilis resmi menambahkan preserve_thinking.

Aktifkan preserve_thinking: true untuk mempertahankan chain-of-thought seluruh giliran percakapan, ideal untuk loop agen multi-langkah.

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True, # pertahankan penalaran di semua giliran
    },
    stream=True
)
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus dengan Claude Code

API Qwen kompatibel dengan protokol Anthropic. Jalankan Claude Code di Qwen3.6-Plus hanya dengan mengubah env variable.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus dengan OpenClaw

OpenClaw (eks Moltbot/Clawdbot) adalah agen pengkodean open source yang bisa self-hosted.

# Instal (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Enter fullscreen mode Exit fullscreen mode

Edit ~/.openclaw/openclaw.json:

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}
Enter fullscreen mode Exit fullscreen mode

Qwen3.6-Plus dengan Qwen Code

Qwen Code adalah agen terminal open source dari Alibaba, khusus untuk seri Qwen. Dapatkan 1.000 API call gratis/hari dengan Qwen Code OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Ketik /auth untuk login & aktifkan quota gratis
Enter fullscreen mode Exit fullscreen mode

Mengapa preserve_thinking Penting untuk Agen

Mayoritas API LLM memperlakukan setiap giliran secara independen. Pada loop agen multi-langkah, model tanpa preserve_thinking bisa kehilangan konteks penalaran sebelumnya sehingga keputusan jadi kurang konsisten.

Aktifkan preserve_thinking agar model melihat seluruh chain-of-thought:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Contoh: agen tinjauan kode multi-langkah
result = agent_step("Analisis modul otentikasi untuk masalah keamanan.")
result = agent_step("Sekarang sarankan perbaikan untuk 3 masalah teratas yang Anda temukan.")
result = agent_step("Tulis tes yang memvalidasi setiap perbaikan.")
Enter fullscreen mode Exit fullscreen mode

Tanpa preserve_thinking, pada langkah ke-3 model tidak tahu masalah yang sudah diidentifikasi di langkah 1. Dengan parameter ini, chain-of-thought tetap utuh di semua giliran.

Use Case Terbaik

  • Perbaikan bug tingkat repositori: SWE-bench Verified 78,8% dan SWE-bench Pro 56,6%. Cocok untuk automasi perbaikan kode atau code review pipeline.
  • Otomatisasi terminal: Skor Terminal-Bench 2.0 tertinggi di kelasnya. Cocok untuk operasi shell, manajemen proses, pipeline build.
  • Pemanggilan alat MCP: MCPMark 48,2%—terbaik untuk workflow berbasis MCP.
  • Analisis dokumen konteks panjang: Jendela 1 juta token, skor LongBench v2 tinggi. Untuk codebase besar, spesifikasi panjang, analisis multi-file.
  • Pembuatan kode frontend: Skor QwenWebBench internal 1501,7 vs Claude Opus 4.5 (1517,9), setara untuk kualitas frontend generation.
  • Multibahasa: WMT24++ 84,3% (teratas), MAXIFE 88,2% di 23 bahasa. Kuat untuk use case non-Inggris.

Menguji API Qwen3.6-Plus dengan Apidog

Endpoint Qwen3.6-Plus kompatibel OpenAI. Impor langsung ke Apidog dan lakukan pengujian seperti API lainnya.

Contoh Apidog

  • Endpoint: https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
  • Header: Authorization: Bearer {{DASHSCOPE_API_KEY}}

Contoh Assertion

pm.test("Respons berisi pilihan", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("Tidak ada penalaran kosong saat pemikiran diaktifkan", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});
Enter fullscreen mode Exit fullscreen mode

Gunakan Smart Mock Apidog untuk generate respons pengujian selama development, menghemat token dan mempercepat siklus pengujian.

Jika membangun agen multi-turn, buat Skenario Pengujian di Apidog dengan beberapa request berurutan. Validasi bahwa preserve_thinking membawa penalaran antar giliran dengan cek struktur respons di setiap langkah sebelum production.

Unduh Apidog gratis untuk menyiapkan pengujian ini.

Apa yang Akan Datang

Tim Qwen mengonfirmasi varian open-source ukuran kecil akan dirilis dalam beberapa hari, mengikuti pola MoE Qwen3.5 dengan bobot Apache 2.0 publik.

Roadmap:

  • Tugas tingkat repositori jangka panjang: penyelesaian masalah multi-file yang makin kompleks
  • Pengembangan agen multimodal: GUI agent & pengkodean visual sebagai core feature

Varian open-source Qwen3.5 menjadi model self-host paling populer dalam beberapa minggu. Jika Qwen3.6 mengikuti pola ini, varian kecilnya akan jadi pilihan utama agen pengkodean self-hosted.

Kesimpulan

Qwen3.6-Plus menutup gap dengan Claude Opus 4.5 pada tugas pengkodean dan unggul pada operasi terminal, pemanggilan alat MCP, serta perencanaan jangka panjang. Dukungan konteks 1 juta token, kompatibilitas protokol Anthropic, dan parameter preserve_thinking menjadikannya pilihan praktis untuk sistem agensi produksi modern.

Pratinjau gratis di OpenRouter cocok untuk evaluasi model. API resmi memberikan stabilitas, SLA, dan parameter baru yang mengoptimalkan workflow multi-turn.

Apidog menangani pengujian: impor endpoint kompatibel OpenAI, tulis assertion respons, mock saat development, dan jalankan regresi testing setiap update model/API.

FAQ

Apa perbedaan Qwen3.6-Plus dan pratinjau?

Pratinjau (qwen/qwen3.6-plus-preview) diluncurkan di OpenRouter pada 30 Maret 2026. Rilis resmi menambah parameter preserve_thinking, SLA uptime, dan dukungan penuh Model Studio. Varian open-source kecil segera hadir.

Apa itu preserve_thinking dan kapan digunakan?

Default: hanya penalaran giliran saat ini yang disimpan. Dengan preserve_thinking: true, model mempertahankan chain-of-thought seluruh percakapan. Gunakan untuk loop agen multi-step.

Bagaimana Qwen3.6-Plus dibanding Claude Opus 4.5?

Claude Opus 4.5 unggul di SWE-bench Verified (80,9% vs 78,8%) dan OSWorld-Verified (66,3% vs 62,5%). Qwen3.6-Plus unggul di Terminal-Bench 2.0 (61,6% vs 59,3%), MCPMark (48,2% vs 42,3%), DeepPlanning (41,5% vs 33,9%), dan GPQA (90,4% vs 87,0%).

Bisakah Qwen3.6-Plus dipakai dengan Claude Code?

Ya. Set ANTHROPIC_BASE_URL ke endpoint Dashscope, ANTHROPIC_MODEL ke qwen3.6-plus, dan ANTHROPIC_AUTH_TOKEN ke API key Dashscope Anda.

Apakah Qwen3.6-Plus open source?

Model hosted API bukan open-weight. Varian kecil dengan bobot publik akan dirilis dalam beberapa hari.

Bagaimana cara mendapatkan akses gratis?

Instal Qwen Code (npm install -g @qwen-code/qwen-code@latest), jalankan qwen, lalu /auth. Login dengan Qwen Code OAuth untuk 1.000 API call gratis/hari.

Jendela konteks yang didukung?

1 juta token default. Beberapa benchmark memakai 256K untuk standar, tapi default API 1M.

Bagaimana menguji integrasi API sebelum deployment?

Impor endpoint ke Apidog, tambahkan API key sebagai variabel lingkungan, tulis assertion respons, gunakan Smart Mock untuk development offline, dan rangkai request ke Skenario Pengujian untuk validasi agen multi-giliran.

Top comments (0)