DEV Community

Cover image for Qwen3.6-Plus API: ターミナルベンチマークでClaudeを凌駕
Akira
Akira

Posted on • Originally published at apidog.com

Qwen3.6-Plus API: ターミナルベンチマークでClaudeを凌駕

要約 (TL;DR)

Qwen3.6-Plus が正式リリースされました。SWE-bench Verified で 78.8%、Terminal-Bench 2.0 で 61.6% を記録し、Claude Opus 4.5 を凌駕しています。1M トークンのコンテキストウィンドウ、エージェントループ用の新しい preserve_thinking パラメータを備え、OpenAI互換APIを介してClaude Code、OpenClaw、Qwen Codeと直接連携します。

Apidogを今すぐ試す

プレビューからリリースへ

OpenRouterでのQwen 3.6 Plusプレビューに関する以前のガイドをご覧になった方は、このモデルの性能をすでにご存知でしょう。プレビューは2026年3月30日に公開され、OpenRouter経由で無料で利用できました。初日から約40万件のリクエストで4億以上の完了トークンを処理しています。

正式リリースでは、Alibaba Cloud Model Studio経由で安定したAPI、SLA付き稼働時間、新しいAPIパラメータ(エージェントタスク向け)などが利用可能です。この記事では、主な変更点・APIの呼び出し方法・Apidogでの統合テスト手順を解説します。

Qwen3.6-Plusとは

Qwen3.6-Plusは、AlibabaのQwenチームが開発したエキスパート混合(MoE)モデルです。Qwen3.5シリーズ同様、スパースアクティベーションにより、計算コストを抑えつつ高い性能を発揮します。

主なスペック:

  • 100万トークンのコンテキストウィンドウ(デフォルト)
  • Chain-of-Thought(思考の連鎖)推論必須
  • エージェントタスクのための新パラメータ preserve_thinking
  • マルチモーダル対応(視覚、ビデオ、ドキュメント理解)
  • OpenAI/Anthropic互換API、OpenAI Responses API

近日中にオープンソースの小規模バリアントもリリース予定です。セルフホスト用ウェイトも順次公開されます。

ベンチマーク結果

コーディングエージェント

Qwen3.6-PlusはSWE-benchタスクでClaude Opus 4.5に迫り、端末操作では全モデルを上回ります。

SWE-benchとTerminal-Bench 2.0のスコアをQwen3.6-Plusと他のLLMで比較した棒グラフ。Qwen3.6-PlusはTerminal-Benchでわずかに優位に立っている。

Terminal-Bench 2.0はファイル管理・プロセス制御・複数ステップの端末ワークフローをテストします。Qwen3.6-Plusは61.6%でClaude Opus 4.5の59.3%を上回り、開発者向けタスクで明確な差を示します。

汎用エージェントとツール使用

ベンチマーク Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%

MCPMarkはGitHub MCP v0.30.3のツール呼び出し能力をテストします。Qwen3.6-Plusはここでもトップ。DeepPlanningでも長期間計画タスクで大きな差をつけています。

推論と知識

ベンチマーク Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%

GPQA(大学院レベル科学推論)、IFEval strict(構造化出力/指示遵守)でQwen3.6-Plusが上回っています。

マルチモーダル

ベンチマーク Qwen3.6-Plus 備考
OmniDocBench 1.5 91.2% テーブル内でトップ
RefCOCO avg 93.5% テーブル内でトップ
We-Math 89.0% テーブル内でトップ
CountBench 97.6% テーブル内でトップ
OSWorld-Verified 62.5% Claude (66.3%)に次ぐ

OSWorld-Verified(デスクトップ操作)ではClaudeに次ぐ結果ですが、ドキュメント・空間認識タスクではトップです。

APIの呼び出し方

Qwen3.6-PlusはAlibaba Cloud Model Studioで利用可能です。APIキーは modelstudio.alibabacloud.com で取得してください。

リージョン別ベースURL:

  • シンガポール: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • 北京: https://dashscope.aliyuncs.com/compatible-mode/v1
  • 米国バージニア: https://dashscope-us.aliyuncs.com/compatible-mode/v1

ストリーミングでの基本呼び出し

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

preserve_thinking パラメータ

正式リリースでは preserve_thinking が追加され、すべての会話ターンの推論を保持できます。エージェントループでの一貫性維持や長期タスクで有効です。

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True,  # すべてのターンで推論を保持
    },
    stream=True
)
Enter fullscreen mode Exit fullscreen mode

Claude CodeでQwen3.6-Plusを使用する

Anthropicプロトコル互換なので、環境変数を設定するだけでClaude Codeから利用可能です。

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude
Enter fullscreen mode Exit fullscreen mode

OpenClawでQwen3.6-Plusを使用する

OpenClaw(旧Moltbot/Clawdbot)をNode.js 22+でインストールし、Model Studioを指定します。

curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard
Enter fullscreen mode Exit fullscreen mode

~/.openclaw/openclaw.json に以下をマージします。

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}
Enter fullscreen mode Exit fullscreen mode

Qwen CodeでQwen3.6-Plusを使用する

Qwen CodeはAlibaba公式のオープンソースターミナルエージェントです。OAuth認証で1日1,000回まで無料利用が可能。

npm install -g @qwen-code/qwen-code@latest
qwen
# /auth と入力してサインインし、無料枠を有効化
Enter fullscreen mode Exit fullscreen mode

preserve_thinkingがエージェントの動作を変える理由

従来のLLM APIは各ターンを独立して処理しますが、preserve_thinking を有効にすると全ターンの推論が保持されます。これにより、例えば10ステップのタスクでも以前の判断根拠を参照でき、一貫性と精度が向上します。

Alibabaのベンチマークでも、冗長な推論の削減やトークン消費量の抑制効果を確認。

エージェントループ実装例:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# 例: マルチステップコードレビューエージェント
result = agent_step("認証モジュールを分析し、セキュリティ上の問題を検出してください。")
result = agent_step("見つかった上位3つの問題について修正案を提案してください。")
result = agent_step("それぞれの修正を検証するテストを書いてください。")
Enter fullscreen mode Exit fullscreen mode

preserve_thinking がないと、各ステップで過去の推論が参照できません。

最適な用途

  • リポジトリレベルのバグ修正: SWE-bench Verifiedで78.8%、SWE-bench Proで56.6%。自動コード修復やレビューのベンチマークに最適。
  • ターミナル自動化: Terminal-Bench 2.0でトップ。シェル操作やビルドパイプラインの自動化に強い。
  • MCPツール呼び出し: MCPMarkで48.2%(現時点トップ)。
  • 長文コンテキストドキュメント分析: 100万トークンのウィンドウで大規模コードベースや仕様書も単一呼び出しで処理可能。
  • フロントエンドコード生成: QwenWebBenchでClaude Opus 4.5と同等のEloスコアを記録。
  • 多言語対応: WMT24++で84.3%、MAXIFEで88.2%(23言語)と多言語用途にも強力。

ApidogでQwen3.6-Plus APIコールをテストする

Qwen3.6-PlusのAPIはOpenAI互換。Apidogへインポートして他API同様にテスト可能です。

ApidogのUIで、Qwen3.6-Plus APIをテストするために設定されたPOSTリクエストが表示されています。

エンドポイント:

https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions

APIキーは環境変数として:

Authorization: Bearer {{DASHSCOPE_API_KEY}}

レスポンスアサーション例:

pm.test("Response contains choices", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});
Enter fullscreen mode Exit fullscreen mode

開発時はApidogのスマートモックでテスト応答を生成し、本番APIを消費せずロジック検証が可能です。

マルチターンエージェントの場合、複数リクエストを連結したシナリオで preserve_thinking の効果もテストできます。

Apidogを無料でダウンロードして、上記テスト設定を始めてください。

今後の展開

Qwenチームは数日以内に小規模なオープンソースバリアントをリリース予定。Apache 2.0ライセンスでスパースMoEモデルの重みが提供されます。

ロードマップ:

  • より複雑なリポジトリ・マルチファイル問題解決
  • GUIエージェントやビジュアルコーディングを第一級機能として継続開発

Qwen3.5バリアントはリリース直後からセルフホスト型モデルの定番に。Qwen3.6も同じ流れが予想されます。

結論

Qwen3.6-Plusはコーディング・ターミナル・MCPツール・長期計画タスクでClaude Opus 4.5との差を縮め、現場向けの実用的な選択肢となりました。1Mトークンのコンテキスト、Anthropicプロトコル互換、preserve_thinking により本番エージェントシステムでの運用性が大幅に向上します。

OpenRouterの無料プレビューで評価した方も、正式APIの安定性とエージェント中心パラメータを活用してください。

ApidogはOpenAI互換エンドポイントのテスト・アサーション・モック・回帰テストまで網羅。モデル更新やAPIバージョン変更時にも安全に自動テストを回せます。

よくある質問

Qwen3.6-Plusとプレビュー版の違いは?

プレビュー(qwen/qwen3.6-plus-preview)は2026/3/30にOpenRouterで公開。正式リリース版はpreserve_thinking追加・SLA・Model Studio完全対応などが特徴。オープンソースバリアントも公開予定。

preserve_thinkingとは?いつ使う?

デフォルトでは現ターンのみ推論保持。preserve_thinking: trueで過去の思考も全て維持。マルチステップエージェントループで推論の一貫性を担保したい時に使用。

Qwen3.6-PlusはClaude Opus 4.5と比べて?

ClaudeはSWE-bench Verified(80.9% vs 78.8%)とOSWorld-Verified(66.3% vs 62.5%)で優位。Qwen3.6-PlusはTerminal-Bench 2.0(61.6% vs 59.3%)、MCPMark(48.2% vs 42.3%)、DeepPlanning(41.5% vs 33.9%)、GPQA(90.4% vs 87.0%)で優位。

Qwen3.6-PlusをClaude Codeで使える?

はい。ANTHROPIC_BASE_URLをDashscope互換エンドポイント、ANTHROPIC_MODELqwen3.6-plusANTHROPIC_AUTH_TOKENをDashscope APIキーに設定。

Qwen3.6-Plusはオープンソース?

API提供モデルはオープンウェイトではありませんが、小規模バリアントがApache 2.0で近日公開予定。

無料でアクセスするには?

Qwen Codeをインストール(npm install -g @qwen-code/qwen-code@latest)し、qwen起動後に/authでOAuth認証。1日1,000回まで無料APIコール可能。

コンテキストウィンドウは?

デフォルト100万トークン。一部公式ベンチマークは比較用に256Kですが、APIデフォルトは1M。

デプロイ前API統合テストは?

Apidogにエンドポイントをインポートし、APIキーを環境変数で追加。応答アサーションを記述し、Smart Mockでオフライン開発。複数リクエストでマルチターンエージェントの動作をテスト可能です。

Top comments (0)