要約 (TL;DR)
Qwen3.6-Plus が正式リリースされました。SWE-bench Verified で 78.8%、Terminal-Bench 2.0 で 61.6% を記録し、Claude Opus 4.5 を凌駕しています。1M トークンのコンテキストウィンドウ、エージェントループ用の新しい preserve_thinking パラメータを備え、OpenAI互換APIを介してClaude Code、OpenClaw、Qwen Codeと直接連携します。
プレビューからリリースへ
OpenRouterでのQwen 3.6 Plusプレビューに関する以前のガイドをご覧になった方は、このモデルの性能をすでにご存知でしょう。プレビューは2026年3月30日に公開され、OpenRouter経由で無料で利用できました。初日から約40万件のリクエストで4億以上の完了トークンを処理しています。
正式リリースでは、Alibaba Cloud Model Studio経由で安定したAPI、SLA付き稼働時間、新しいAPIパラメータ(エージェントタスク向け)などが利用可能です。この記事では、主な変更点・APIの呼び出し方法・Apidogでの統合テスト手順を解説します。
Qwen3.6-Plusとは
Qwen3.6-Plusは、AlibabaのQwenチームが開発したエキスパート混合(MoE)モデルです。Qwen3.5シリーズ同様、スパースアクティベーションにより、計算コストを抑えつつ高い性能を発揮します。
主なスペック:
- 100万トークンのコンテキストウィンドウ(デフォルト)
- Chain-of-Thought(思考の連鎖)推論必須
- エージェントタスクのための新パラメータ
preserve_thinking - マルチモーダル対応(視覚、ビデオ、ドキュメント理解)
- OpenAI/Anthropic互換API、OpenAI Responses API
近日中にオープンソースの小規模バリアントもリリース予定です。セルフホスト用ウェイトも順次公開されます。
ベンチマーク結果
コーディングエージェント
Qwen3.6-PlusはSWE-benchタスクでClaude Opus 4.5に迫り、端末操作では全モデルを上回ります。
Terminal-Bench 2.0はファイル管理・プロセス制御・複数ステップの端末ワークフローをテストします。Qwen3.6-Plusは61.6%でClaude Opus 4.5の59.3%を上回り、開発者向けタスクで明確な差を示します。
汎用エージェントとツール使用
| ベンチマーク | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| TAU3-Bench | 70.2% | 70.7% |
| DeepPlanning | 33.9% | 41.5% |
| MCPMark | 42.3% | 48.2% |
| MCP-Atlas | 71.8% | 74.1% |
| WideSearch | 76.4% | 74.3% |
MCPMarkはGitHub MCP v0.30.3のツール呼び出し能力をテストします。Qwen3.6-Plusはここでもトップ。DeepPlanningでも長期間計画タスクで大きな差をつけています。
推論と知識
| ベンチマーク | Claude Opus 4.5 | Qwen3.6-Plus |
|---|---|---|
| GPQA | 87.0% | 90.4% |
| LiveCodeBench v6 | 84.8% | 87.1% |
| IFEval strict | 90.9% | 94.3% |
| MMLU-Pro | 89.5% | 88.5% |
GPQA(大学院レベル科学推論)、IFEval strict(構造化出力/指示遵守)でQwen3.6-Plusが上回っています。
マルチモーダル
| ベンチマーク | Qwen3.6-Plus | 備考 |
|---|---|---|
| OmniDocBench 1.5 | 91.2% | テーブル内でトップ |
| RefCOCO avg | 93.5% | テーブル内でトップ |
| We-Math | 89.0% | テーブル内でトップ |
| CountBench | 97.6% | テーブル内でトップ |
| OSWorld-Verified | 62.5% | Claude (66.3%)に次ぐ |
OSWorld-Verified(デスクトップ操作)ではClaudeに次ぐ結果ですが、ドキュメント・空間認識タスクではトップです。
APIの呼び出し方
Qwen3.6-PlusはAlibaba Cloud Model Studioで利用可能です。APIキーは modelstudio.alibabacloud.com で取得してください。
リージョン別ベースURL:
- シンガポール:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - 北京:
https://dashscope.aliyuncs.com/compatible-mode/v1 - 米国バージニア:
https://dashscope-us.aliyuncs.com/compatible-mode/v1
ストリーミングでの基本呼び出し
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
extra_body={"enable_thinking": True},
stream=True
)
reasoning = ""
answer = ""
is_answering = False
for chunk in completion:
if not chunk.choices:
continue
delta = chunk.choices[0].delta
if hasattr(delta, "reasoning_content") and delta.reasoning_content:
if not is_answering:
reasoning += delta.reasoning_content
if delta.content:
if not is_answering:
is_answering = True
answer += delta.content
print(delta.content, end="", flush=True)
preserve_thinking パラメータ
正式リリースでは preserve_thinking が追加され、すべての会話ターンの推論を保持できます。エージェントループでの一貫性維持や長期タスクで有効です。
completion = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation_history,
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # すべてのターンで推論を保持
},
stream=True
)
Claude CodeでQwen3.6-Plusを使用する
Anthropicプロトコル互換なので、環境変数を設定するだけでClaude Codeから利用可能です。
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key
claude
OpenClawでQwen3.6-Plusを使用する
OpenClaw(旧Moltbot/Clawdbot)をNode.js 22+でインストールし、Model Studioを指定します。
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=your_key
openclaw dashboard
~/.openclaw/openclaw.json に以下をマージします。
{
"models": {
"providers": [{
"name": "alibaba-coding-plan",
"baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
"apiKey": "${DASHSCOPE_API_KEY}",
"models": [{"id": "qwen3.6-plus", "reasoning": true}]
}]
},
"agents": {
"defaults": {"models": ["qwen3.6-plus"]}
}
}
Qwen CodeでQwen3.6-Plusを使用する
Qwen CodeはAlibaba公式のオープンソースターミナルエージェントです。OAuth認証で1日1,000回まで無料利用が可能。
npm install -g @qwen-code/qwen-code@latest
qwen
# /auth と入力してサインインし、無料枠を有効化
preserve_thinkingがエージェントの動作を変える理由
従来のLLM APIは各ターンを独立して処理しますが、preserve_thinking を有効にすると全ターンの推論が保持されます。これにより、例えば10ステップのタスクでも以前の判断根拠を参照でき、一貫性と精度が向上します。
Alibabaのベンチマークでも、冗長な推論の削減やトークン消費量の抑制効果を確認。
エージェントループ実装例:
conversation = []
def agent_step(user_message, preserve=True):
conversation.append({"role": "user", "content": user_message})
response = client.chat.completions.create(
model="qwen3.6-plus",
messages=conversation,
extra_body={
"enable_thinking": True,
"preserve_thinking": preserve,
},
stream=False
)
message = response.choices[0].message
conversation.append({"role": "assistant", "content": message.content})
return message.content
# 例: マルチステップコードレビューエージェント
result = agent_step("認証モジュールを分析し、セキュリティ上の問題を検出してください。")
result = agent_step("見つかった上位3つの問題について修正案を提案してください。")
result = agent_step("それぞれの修正を検証するテストを書いてください。")
preserve_thinking がないと、各ステップで過去の推論が参照できません。
最適な用途
- リポジトリレベルのバグ修正: SWE-bench Verifiedで78.8%、SWE-bench Proで56.6%。自動コード修復やレビューのベンチマークに最適。
- ターミナル自動化: Terminal-Bench 2.0でトップ。シェル操作やビルドパイプラインの自動化に強い。
- MCPツール呼び出し: MCPMarkで48.2%(現時点トップ)。
- 長文コンテキストドキュメント分析: 100万トークンのウィンドウで大規模コードベースや仕様書も単一呼び出しで処理可能。
- フロントエンドコード生成: QwenWebBenchでClaude Opus 4.5と同等のEloスコアを記録。
- 多言語対応: WMT24++で84.3%、MAXIFEで88.2%(23言語)と多言語用途にも強力。
ApidogでQwen3.6-Plus APIコールをテストする
Qwen3.6-PlusのAPIはOpenAI互換。Apidogへインポートして他API同様にテスト可能です。
エンドポイント:
https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions
APIキーは環境変数として:
Authorization: Bearer {{DASHSCOPE_API_KEY}}
レスポンスアサーション例:
pm.test("Response contains choices", () => {
const body = pm.response.json();
pm.expect(body).to.have.property("choices");
pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});
pm.test("No empty reasoning when thinking enabled", () => {
const choice = pm.response.json().choices[0];
if (choice.message.reasoning_content !== undefined) {
pm.expect(choice.message.reasoning_content).to.not.be.empty;
}
});
開発時はApidogのスマートモックでテスト応答を生成し、本番APIを消費せずロジック検証が可能です。
マルチターンエージェントの場合、複数リクエストを連結したシナリオで preserve_thinking の効果もテストできます。
Apidogを無料でダウンロードして、上記テスト設定を始めてください。
今後の展開
Qwenチームは数日以内に小規模なオープンソースバリアントをリリース予定。Apache 2.0ライセンスでスパースMoEモデルの重みが提供されます。
ロードマップ:
- より複雑なリポジトリ・マルチファイル問題解決
- GUIエージェントやビジュアルコーディングを第一級機能として継続開発
Qwen3.5バリアントはリリース直後からセルフホスト型モデルの定番に。Qwen3.6も同じ流れが予想されます。
結論
Qwen3.6-Plusはコーディング・ターミナル・MCPツール・長期計画タスクでClaude Opus 4.5との差を縮め、現場向けの実用的な選択肢となりました。1Mトークンのコンテキスト、Anthropicプロトコル互換、preserve_thinking により本番エージェントシステムでの運用性が大幅に向上します。
OpenRouterの無料プレビューで評価した方も、正式APIの安定性とエージェント中心パラメータを活用してください。
ApidogはOpenAI互換エンドポイントのテスト・アサーション・モック・回帰テストまで網羅。モデル更新やAPIバージョン変更時にも安全に自動テストを回せます。
よくある質問
Qwen3.6-Plusとプレビュー版の違いは?
プレビュー(qwen/qwen3.6-plus-preview)は2026/3/30にOpenRouterで公開。正式リリース版はpreserve_thinking追加・SLA・Model Studio完全対応などが特徴。オープンソースバリアントも公開予定。
preserve_thinkingとは?いつ使う?
デフォルトでは現ターンのみ推論保持。preserve_thinking: trueで過去の思考も全て維持。マルチステップエージェントループで推論の一貫性を担保したい時に使用。
Qwen3.6-PlusはClaude Opus 4.5と比べて?
ClaudeはSWE-bench Verified(80.9% vs 78.8%)とOSWorld-Verified(66.3% vs 62.5%)で優位。Qwen3.6-PlusはTerminal-Bench 2.0(61.6% vs 59.3%)、MCPMark(48.2% vs 42.3%)、DeepPlanning(41.5% vs 33.9%)、GPQA(90.4% vs 87.0%)で優位。
Qwen3.6-PlusをClaude Codeで使える?
はい。ANTHROPIC_BASE_URLをDashscope互換エンドポイント、ANTHROPIC_MODELをqwen3.6-plus、ANTHROPIC_AUTH_TOKENをDashscope APIキーに設定。
Qwen3.6-Plusはオープンソース?
API提供モデルはオープンウェイトではありませんが、小規模バリアントがApache 2.0で近日公開予定。
無料でアクセスするには?
Qwen Codeをインストール(npm install -g @qwen-code/qwen-code@latest)し、qwen起動後に/authでOAuth認証。1日1,000回まで無料APIコール可能。
コンテキストウィンドウは?
デフォルト100万トークン。一部公式ベンチマークは比較用に256Kですが、APIデフォルトは1M。
デプロイ前API統合テストは?
Apidogにエンドポイントをインポートし、APIキーを環境変数で追加。応答アサーションを記述し、Smart Mockでオフライン開発。複数リクエストでマルチターンエージェントの動作をテスト可能です。


Top comments (0)