Akira

Posted on Apr 2 • Originally published at apidog.com

Qwen3.6-Plus API: ターミナルベンチマークでClaudeを凌駕

要約 (TL;DR)

Qwen3.6-Plus が正式リリースされました。SWE-bench Verified で 78.8%、Terminal-Bench 2.0 で 61.6% を記録し、Claude Opus 4.5 を凌駕しています。1M トークンのコンテキストウィンドウ、エージェントループ用の新しい preserve_thinking パラメータを備え、OpenAI互換APIを介してClaude Code、OpenClaw、Qwen Codeと直接連携します。

Apidogを今すぐ試す

プレビューからリリースへ

OpenRouterでのQwen 3.6 Plusプレビューに関する以前のガイドをご覧になった方は、このモデルの性能をすでにご存知でしょう。プレビューは2026年3月30日に公開され、OpenRouter経由で無料で利用できました。初日から約40万件のリクエストで4億以上の完了トークンを処理しています。

正式リリースでは、Alibaba Cloud Model Studio経由で安定したAPI、SLA付き稼働時間、新しいAPIパラメータ（エージェントタスク向け）などが利用可能です。この記事では、主な変更点・APIの呼び出し方法・Apidogでの統合テスト手順を解説します。

Qwen3.6-Plusとは

Qwen3.6-Plusは、AlibabaのQwenチームが開発したエキスパート混合(MoE)モデルです。Qwen3.5シリーズ同様、スパースアクティベーションにより、計算コストを抑えつつ高い性能を発揮します。

主なスペック:

100万トークンのコンテキストウィンドウ（デフォルト）
Chain-of-Thought（思考の連鎖）推論必須
エージェントタスクのための新パラメータ preserve_thinking
マルチモーダル対応（視覚、ビデオ、ドキュメント理解）
OpenAI/Anthropic互換API、OpenAI Responses API

近日中にオープンソースの小規模バリアントもリリース予定です。セルフホスト用ウェイトも順次公開されます。

ベンチマーク結果

コーディングエージェント

Qwen3.6-PlusはSWE-benchタスクでClaude Opus 4.5に迫り、端末操作では全モデルを上回ります。

Terminal-Bench 2.0はファイル管理・プロセス制御・複数ステップの端末ワークフローをテストします。Qwen3.6-Plusは61.6%でClaude Opus 4.5の59.3%を上回り、開発者向けタスクで明確な差を示します。

汎用エージェントとツール使用

ベンチマーク	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

MCPMarkはGitHub MCP v0.30.3のツール呼び出し能力をテストします。Qwen3.6-Plusはここでもトップ。DeepPlanningでも長期間計画タスクで大きな差をつけています。

推論と知識

ベンチマーク	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA（大学院レベル科学推論）、IFEval strict（構造化出力/指示遵守）でQwen3.6-Plusが上回っています。

マルチモーダル

ベンチマーク	Qwen3.6-Plus	備考
OmniDocBench 1.5	91.2%	テーブル内でトップ
RefCOCO avg	93.5%	テーブル内でトップ
We-Math	89.0%	テーブル内でトップ
CountBench	97.6%	テーブル内でトップ
OSWorld-Verified	62.5%	Claude (66.3%)に次ぐ

OSWorld-Verified（デスクトップ操作）ではClaudeに次ぐ結果ですが、ドキュメント・空間認識タスクではトップです。

APIの呼び出し方

Qwen3.6-PlusはAlibaba Cloud Model Studioで利用可能です。APIキーは modelstudio.alibabacloud.com で取得してください。

リージョン別ベースURL:

シンガポール: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
北京: https://dashscope.aliyuncs.com/compatible-mode/v1
米国バージニア: https://dashscope-us.aliyuncs.com/compatible-mode/v1

ストリーミングでの基本呼び出し

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)

preserve_thinking パラメータ

正式リリースでは preserve_thinking が追加され、すべての会話ターンの推論を保持できます。エージェントループでの一貫性維持や長期タスクで有効です。

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True,  # すべてのターンで推論を保持
    },
    stream=True
)

Claude CodeでQwen3.6-Plusを使用する

Anthropicプロトコル互換なので、環境変数を設定するだけでClaude Codeから利用可能です。

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

OpenClawでQwen3.6-Plusを使用する

OpenClaw（旧Moltbot/Clawdbot）をNode.js 22+でインストールし、Model Studioを指定します。

curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

~/.openclaw/openclaw.json に以下をマージします。

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}

Qwen CodeでQwen3.6-Plusを使用する

Qwen CodeはAlibaba公式のオープンソースターミナルエージェントです。OAuth認証で1日1,000回まで無料利用が可能。

npm install -g @qwen-code/qwen-code@latest
qwen
# /auth と入力してサインインし、無料枠を有効化

preserve_thinkingがエージェントの動作を変える理由

従来のLLM APIは各ターンを独立して処理しますが、preserve_thinking を有効にすると全ターンの推論が保持されます。これにより、例えば10ステップのタスクでも以前の判断根拠を参照でき、一貫性と精度が向上します。

Alibabaのベンチマークでも、冗長な推論の削減やトークン消費量の抑制効果を確認。

エージェントループ実装例:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# 例: マルチステップコードレビューエージェント
result = agent_step("認証モジュールを分析し、セキュリティ上の問題を検出してください。")
result = agent_step("見つかった上位3つの問題について修正案を提案してください。")
result = agent_step("それぞれの修正を検証するテストを書いてください。")

preserve_thinking がないと、各ステップで過去の推論が参照できません。

最適な用途

リポジトリレベルのバグ修正: SWE-bench Verifiedで78.8%、SWE-bench Proで56.6%。自動コード修復やレビューのベンチマークに最適。
ターミナル自動化: Terminal-Bench 2.0でトップ。シェル操作やビルドパイプラインの自動化に強い。
MCPツール呼び出し: MCPMarkで48.2%（現時点トップ）。
長文コンテキストドキュメント分析: 100万トークンのウィンドウで大規模コードベースや仕様書も単一呼び出しで処理可能。
フロントエンドコード生成: QwenWebBenchでClaude Opus 4.5と同等のEloスコアを記録。
多言語対応: WMT24++で84.3%、MAXIFEで88.2%（23言語）と多言語用途にも強力。

ApidogでQwen3.6-Plus APIコールをテストする

Qwen3.6-PlusのAPIはOpenAI互換。Apidogへインポートして他API同様にテスト可能です。

エンドポイント:

https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions

APIキーは環境変数として:

Authorization: Bearer {{DASHSCOPE_API_KEY}}

レスポンスアサーション例:

pm.test("Response contains choices", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});

開発時はApidogのスマートモックでテスト応答を生成し、本番APIを消費せずロジック検証が可能です。

マルチターンエージェントの場合、複数リクエストを連結したシナリオで preserve_thinking の効果もテストできます。

Apidogを無料でダウンロードして、上記テスト設定を始めてください。

今後の展開

Qwenチームは数日以内に小規模なオープンソースバリアントをリリース予定。Apache 2.0ライセンスでスパースMoEモデルの重みが提供されます。

ロードマップ:

より複雑なリポジトリ・マルチファイル問題解決
GUIエージェントやビジュアルコーディングを第一級機能として継続開発

Qwen3.5バリアントはリリース直後からセルフホスト型モデルの定番に。Qwen3.6も同じ流れが予想されます。

結論

Qwen3.6-Plusはコーディング・ターミナル・MCPツール・長期計画タスクでClaude Opus 4.5との差を縮め、現場向けの実用的な選択肢となりました。1Mトークンのコンテキスト、Anthropicプロトコル互換、preserve_thinking により本番エージェントシステムでの運用性が大幅に向上します。

OpenRouterの無料プレビューで評価した方も、正式APIの安定性とエージェント中心パラメータを活用してください。

ApidogはOpenAI互換エンドポイントのテスト・アサーション・モック・回帰テストまで網羅。モデル更新やAPIバージョン変更時にも安全に自動テストを回せます。

よくある質問

Qwen3.6-Plusとプレビュー版の違いは？

プレビュー(qwen/qwen3.6-plus-preview)は2026/3/30にOpenRouterで公開。正式リリース版はpreserve_thinking追加・SLA・Model Studio完全対応などが特徴。オープンソースバリアントも公開予定。

preserve_thinkingとは？いつ使う？

デフォルトでは現ターンのみ推論保持。preserve_thinking: trueで過去の思考も全て維持。マルチステップエージェントループで推論の一貫性を担保したい時に使用。

Qwen3.6-PlusはClaude Opus 4.5と比べて？

ClaudeはSWE-bench Verified（80.9% vs 78.8%）とOSWorld-Verified（66.3% vs 62.5%）で優位。Qwen3.6-PlusはTerminal-Bench 2.0（61.6% vs 59.3%）、MCPMark（48.2% vs 42.3%）、DeepPlanning（41.5% vs 33.9%）、GPQA（90.4% vs 87.0%）で優位。

Qwen3.6-PlusをClaude Codeで使える？

はい。ANTHROPIC_BASE_URLをDashscope互換エンドポイント、ANTHROPIC_MODELをqwen3.6-plus、ANTHROPIC_AUTH_TOKENをDashscope APIキーに設定。

Qwen3.6-Plusはオープンソース？

API提供モデルはオープンウェイトではありませんが、小規模バリアントがApache 2.0で近日公開予定。

無料でアクセスするには？

Qwen Codeをインストール（npm install -g @qwen-code/qwen-code@latest）し、qwen起動後に/authでOAuth認証。1日1,000回まで無料APIコール可能。

コンテキストウィンドウは？

デフォルト100万トークン。一部公式ベンチマークは比較用に256Kですが、APIデフォルトは1M。

デプロイ前API統合テストは？

Apidogにエンドポイントをインポートし、APIキーを環境変数で追加。応答アサーションを記述し、Smart Mockでオフライン開発。複数リクエストでマルチターンエージェントの動作をテスト可能です。

DEV Community