Akira

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus: アリババのマルチモーダルエージェントモデル、ベンチマークと価格

AlibabaはQwen 3.7-Maxの数日後に、Qwen 3.7 Plusをリリースしました。要点はシンプルです。Plusは「視覚入力に対応したMax」です。1Mトークンのコンテキストとエージェント向けのバックボーンを維持しながら、画像・動画入力に対応し、価格はMaxの約6分の1に抑えられています。テキスト中心のフラッグシップについては、Qwen 3.7とは何かについてのガイドで解説しています。この記事では、Qwen 3.7 Plusで何が追加され、どのように使い始めるかを整理します。

今すぐApidogを試す

最初に押さえるべき点は、Qwen 3.7 PlusがAPI専用かつプロプライエタリなモデルであることです。Qwenシリーズでよく見られたオープンウェイト提供とは異なり、ウェイトのダウンロードや自己ホストはできません。つまり、実装ではAPI呼び出し、ペイロード設計、レスポンス検証、デバッグが中心になります。そのため、後半ではApidogを使ったテスト方法も紹介します。

手短な回答

Qwen 3.7 Plusは、Qwen 3.7-Maxのマルチモーダルで低価格な兄弟モデルです。スクリーンショット、デザインモックアップ、PDF、動画などを入力として扱い、それらを前提に推論できます。

特に重要なのは、GUI操作エージェント向けの能力です。たとえばアプリ画面のスクリーンショットを渡すと、「どのボタンをクリックすべきか」だけでなく、クリック対象のピクセル座標を返すような用途に使えます。

純粋なテキストタスクではMaxがわずかに優位です。一方、画像・動画・UI画面のような視覚情報を含むタスクではPlusが適しています。コストもMaxより大幅に低いため、混合ワークロードではPlusをデフォルト候補にしやすいモデルです。主な制約は、クローズドウェイトであることです。

Qwen 3.7 Maxとの違い

実装上の違いは主に3つです。

1. テキストだけでなく画像・動画を入力できる

Maxはテキストのみですが、Plusは以下を入力として扱えます。

テキスト
画像
動画

これにより、次のような処理を単一モデルで実装できます。

スクリーンショット解析
PDFやドキュメント画像の読み取り
UIモックアップからの仕様抽出
動画内容の理解
画面上の操作対象の推定

2. GUI操作を前提にした出力ができる

Plusは、ブラウザ自動化、GUIナビゲーション、GUIとCLIを組み合わせたワークフロー向けのマルチモーダルエージェントとして位置付けられています。

たとえば、次のような構造化されたアクションを返す用途に向いています。

{
  "action": "click",
  "target": "送信ボタン",
  "x": 487,
  "y": 232
}

このような出力をPlaywright、Selenium、RPAツール、独自エージェントの操作ループに接続できます。

3. 価格が低い

PlusはMaxより低い価格帯で利用できます。視覚入力を使えるにもかかわらず、トークン単価はMaxより大幅に安く設定されています。

項目	Qwen 3.7 Plus	Qwen 3.7 Max
入力モダリティ	テキスト、画像、動画	テキストのみ
コンテキストウィンドウ	1Mトークン（視覚と共有）	1Mトークン
1Mトークンあたりの入出力	$0.40 / $1.60	$2.50 / $7.50
1Mトークンあたりのキャッシュ入力	$0.08	$0.25
GUIグラウンディング（ScreenSpot Pro）	79.0	なし
Terminal-Bench	70.3	69.7
自律実行上限	35時間	35時間

ベンチマーク

初期のハンズオンレビューで示された数値は、Plusの位置付けをよく表しています。テキストではMaxと同等かやや下、視覚が関わるとPlusが強くなります。

主な指標は次の通りです。

ScreenSpot Pro: 79.0

GUIグラウンディングのテストです。スクリーンショットを見て、操作対象の正確なピクセル座標を推定する能力を示します。Maxはテキストのみのため、このテストは実行できません。
Terminal-Bench: 70.3

視覚入力対応にもかかわらず、Maxの69.7をわずかに上回っています。
SWE-Bench Pro: 約60%

Maxの60.6%とほぼ同水準です。
MCP-Atlas: 76.4

ツール使用のオーケストレーションではMaxと同点です。
LM Arena

テキストではPlusが#15、Maxが#13。コーディングではPlusが#12、Maxが#10です。純粋なテキストタスクではMaxがわずかに優位です。

実装上の判断基準は明確です。

スクリーンショット、UI、チャート、動画、PDFを扱うならPlus
テキストのみで最高スコアを狙うならMax

テキストモデル同士の比較については、Qwen 3.7 vs GPT-5.5 vs Opus 4.7の比較も参考になります。なお、ベンチマーク値はベンダー発表や初期レビューに基づくため、絶対値ではなく方向性として扱うのが安全です。

価格設定：低コストなマルチモーダル層

Qwen 3.7 Plusの価格は次の通りです。

入力: 100万トークンあたり $0.40
出力: 100万トークンあたり $1.60
キャッシュ入力: 100万トークンあたり $0.08

Maxと比較すると、入力は約6倍、出力は約5倍安価です。テキストのみのモデルより低い価格帯で、画像・動画入力と1Mコンテキストを利用できる点が特徴です。

ただし、コスト見積もりでは視覚トークンに注意してください。画像と動画は1Mトークンのコンテキスト予算を共有します。

たとえば、次のようなケースではトークン消費が増えます。

高解像度スクリーンショットを大量に送る
複数ページのPDFを画像として渡す
動画フレームを多く含める
GUIエージェントの各ステップで画面全体を再送する

実装では、次のような対策を検討してください。

- 必要な領域だけをクロップする
- スクリーンショット解像度を下げる
- 前回状態との差分だけを送る
- 長い動画は短いクリップまたは代表フレームに分割する
- キャッシュ可能な入力を再利用する

中国LLMの価格競争の背景については、2026年中国LLM価格戦争の分析も参考になります。

注意点：プロプライエタリでAPIのみ

Qwenシリーズは、これまでオープンウェイトによって企業利用を広げてきました。以前の多くのQwenモデルはApache 2.0またはオープンユースライセンスで提供され、チームはモデルをダウンロードし、ファインチューニングし、エアギャップ環境で実行できました。

Qwen 3.7 Plusでは、それはできません。

PlusはAlibaba Cloud Model Studio経由のマネージド商用APIとしてのみ提供されます。

できないことは次の通りです。

ウェイトのダウンロード
自己ホスト
オフライン実行
エアギャップ環境での運用

規制産業や閉域環境では、この制約が採用上の障壁になります。2026年第3四半期にオープンウェイト版が検討されているという話もありますが、確認済みではありません。オープンウェイトが必須要件であれば、現時点でPlusは選択肢から外すべきです。

比較対象として、Step 3.7 Flashのような競合モデルはApache 2.0で提供され、価格もPlusを下回っています。

Qwen 3.7 Plusへのアクセス方法

Qwen 3.7 Plusを試す方法は2つあります。

1. APIで呼び出す

Alibaba Cloud Model Studio経由で利用します。エンドポイントはOpenAI互換のため、既存のOpenAI SDKに近い形で実装できます。

基本的な流れは次の通りです。

Alibaba Cloud Model StudioでAPIキーを取得する
OpenAI互換エンドポイントのbase URLを設定する
モデル名を指定する
messagesにテキスト、画像、動画パートを含める
レスポンスを検証する

認証と最初の呼び出しについては、Qwen 3.7 APIの使用ガイドも参考になります。

2. ブラウザで試す

コードを書く前に、chat.qwen.aiで挙動を確認できます。無料で試したい場合は、Qwen 3.7を無料で利用するガイドを参照してください。

最小構成のマルチモーダル呼び出し

以下は、OpenAI互換形式で画像付きリクエストを送る最小例です。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "このフォームを送信するボタンはどれですか？ピクセル座標を教えてください。"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

GUIエージェントに接続する場合は、レスポンスを自然文ではなくJSONで返すように指示すると扱いやすくなります。

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "system",
            "content": "あなたはGUI操作エージェントです。必ずJSONのみを返してください。"
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": """
画面を見て、フォーム送信に必要な次の操作を返してください。
形式:
{
  "action": "click",
  "target": "string",
  "x": number,
  "y": number,
  "reason": "string"
}
"""
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

国際エンドポイントと中国リージョンでは、モデル識別子やbase URLが異なる場合があります。実装前にModel Studioの公式ドキュメントで確認してください。

利用すべきユーザー

Qwen 3.7 Plusは、次のような開発に向いています。

コンピュータ利用エージェント

スクリーンショットを見て、実際のUIをクリック操作するエージェントです。

例:

1. 現在の画面スクリーンショットを取得
2. Plusに次の操作を問い合わせる
3. x/y座標を受け取る
4. PlaywrightやSeleniumでクリック
5. 次の画面を再度送信

スクリーンショットからコード生成

デザインモックアップや既存UIのスクリーンショットを渡し、フロントエンド実装の下書きを生成する用途です。

例:

- 画像からレイアウトを説明させる
- コンポーネント構造を抽出する
- Tailwind CSSやReactコンポーネントに変換する

ドキュメント、PDF、動画理解

低いトークン単価で視覚入力を扱えるため、以下のようなタスクに使いやすいです。

PDFの要約
図表の説明
動画の内容抽出
ドキュメント画像のQA

長時間の自動エージェント実行

Plusは、数千回のツール呼び出しを含む長時間実行ワークフローにも向いています。自律実行上限は35時間です。

一方、次の条件ではMaxを検討してください。

純粋なテキストのSWE-Bench Proスコアを最優先する
テキストのみのレイテンシを最小化したい
画像や動画を一切扱わない

Plusを他のオープンモデルや低価格モデルと比較する場合は、MiniMax M3 vs DeepSeek V4 vs Qwen 3.7の比較も参考になります。

Apidogを使ったQwen 3.7 Plusのテスト

PlusはAPI専用です。そのため、本番実装前に以下を検証する必要があります。

認証ヘッダーが正しいか
画像URLまたはメディアペイロードが正しく送られているか
モデル名とリージョンURLが合っているか
レスポンス形式がアプリ側で処理できるか
GUI操作用のJSONが安定して返るか
長いツール呼び出しループで破綻しないか

Apidogを使うと、Qwen 3.7 PlusのAPIリクエストを送信し、生レスポンスを確認し、環境ごとにModel Studioキーを管理できます。画像や動画を含むマルチモーダルリクエストのデバッグにも使えます。

特にエージェント用途では、1回のAPI呼び出しではなく、次のようなループになります。

スクリーンショット取得
↓
Qwen 3.7 Plusに送信
↓
操作プランを受信
↓
ツール実行
↓
結果を再送信
↓
次の操作を生成

このようなワークフローでは、どのリクエストで何を送ったか、どのレスポンスで意図しない出力が返ったかを追跡する必要があります。ApidogのAIエージェントデバッガーを使うと、呼び出しシーケンス全体を確認し、失敗箇所を特定しやすくなります。

本番環境に移行する前に、Qwen 3.7 Plus APIをテスト、デバッグ、モックするためにApidogをダウンロードしてください。

よくある質問

Qwen 3.7 Plusはオープンソースですか？

いいえ。Qwen 3.7 Plusはプロプライエタリです。Alibaba Cloud Model Studioを介したマネージドAPIとしてのみ利用できます。ウェイトのダウンロードや自己ホストはできません。2026年第3四半期にオープンウェイト版が提案されていますが、確認されていません。

Qwen 3.7 PlusとMax、どちらを使うべきですか？

視覚入力が必要な場合はPlusを使ってください。たとえば、スクリーンショット、PDF、動画、UIモックアップを扱う場合です。より低い価格を重視する場合もPlusが適しています。

純粋なテキストタスクのスコアやテキストのみのレイテンシを最優先する場合はMaxを検討してください。

Qwen 3.7 Plusの費用はいくらですか？

価格は次の通りです。

入力100万トークンあたり: $0.40
出力100万トークンあたり: $1.60
キャッシュ入力100万トークンあたり: $0.08

Qwen 3.7-Maxと比べて、入力で約6倍安価です。

Qwen 3.7 Plusは動画を処理できますか？

はい。テキスト、画像、動画を入力として受け入れます。ただし、視覚トークンは1Mトークンのコンテキスト予算を共有します。大きなメディアペイロードを送ると、テキストに使える余裕が減ります。

コンテキストウィンドウはどれくらいですか？

1Mトークンです。これはMaxのバックボーンから継承されたもので、テキスト、画像、動画トークンで共有されます。

Qwen 3.7 Plusにはどうやってアクセスしますか？

Alibaba Cloud Model Studio API経由で利用できます。また、ブラウザではchat.qwen.aiで試すことができます。

結論

Qwen 3.7 Plusは、Alibabaのエージェント型フラッグシップに視覚入力を追加し、価格を低く抑えたマルチモーダルモデルです。コンピュータ利用エージェント、スクリーンショット駆動のコーディング、PDF解析、動画理解を実装する開発者にとって、有力な選択肢になります。

一方で、ウェイトはクローズドで、Alibaba Cloud Model Studio APIへの依存があります。自己ホストやエアギャップ環境が必須なら、この制約は大きな問題になります。

そのトレードオフを許容できるなら、次のステップはAPI検証です。ApidogでQwen 3.7 Plusのマルチモーダル呼び出しをテストし、レスポンスをデバッグし、本番トラフィックに耐えられる形でモックと検証を進めてください。

DEV Community