Akira

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 PlusとMax、どちらのQwen 3.7モデルを選ぶべき？

Alibabaは2週間以内に、Qwen 3.7シリーズの2つのフラッグシップモデルを発表しました。テキスト専用推論モデルのQwen3.7-Maxと、画像・動画入力に対応したマルチモーダル版のQwen3.7-Plusです。どちらも1Mトークンのコンテキストと35時間の自律稼働上限を持つため、実装時は「性能」だけでなく「入力形式」「レイテンシ」「コスト」で選ぶ必要があります。

今すぐApidogを試す

この記事では、ベンチマーク、料金、速度、APIテスト時の確認ポイントに基づいて両モデルを比較します。各モデルの背景を先に確認したい場合は、Qwen 3.7 Plus概要とQwen 3.7とは何かのガイドを参照してください。どちらを選ぶ場合でも、API経由で呼び出し、実際の応答・コスト・失敗ケースを検証する必要があります。その検証にはApidogを使えます。

結論：多くの実装ではPlusをデフォルトにする

基本方針はシンプルです。

Qwen 3.7 Plus：ほとんどのアプリケーションのデフォルト
Qwen 3.7 Max：テキスト専用かつ低レイテンシを最優先する場合

Plusはツール利用でMaxと同等、ターミナルタスクではMaxをわずかに上回り、画像や動画入力も扱えます。さらに、コストはMaxの約6分の1です。多くのワークロードでは、この価格差だけでPlusを選ぶ理由になります。

Maxを選ぶべきなのは、純粋なテキスト処理に最適化したい場合です。テキスト系リーダーボードではわずかに優位で、テキスト専用のコールドスタートでもやや高速です。スクリーンショット、PDF画像、UI画面、動画を一切扱わないなら、Maxの優位性が意味を持つことがあります。

核となる違い

Qwen 3.7 Maxは、テキスト専用のフラッグシップモデルです。テキスト入力のみで推論、コーディング、長いエージェントチェーンを実行できます。

Qwen 3.7 Plusは、同じ系統の基盤に視覚機能を追加したモデルです。画像や動画を入力でき、スクリーンショットからGUIを理解してクリック座標を返すようなタスクにも対応します。さらに料金はMaxより大幅に安価です。

実装上の判断は次のようになります。

画像・動画・UI画面を扱う → Plus
コストを抑えたい → Plus
テキストのみで最速応答が必要 → Max
テキスト品質のわずかな差を重視 → Maxを検証

ベンチマーク比較

ベンチマークでは、Plusは純粋なテキストでMaxにわずかに劣ります。一方で、ツール利用では同等で、視覚入力が必要なタスクではPlusだけが対応できます。

ベンチマーク	Qwen 3.7 Plus	Qwen 3.7 Max
LMアリーナ (テキスト)	#15	#13
LMアリーナ (コーディング)	#12	#10
ビジョンアリーナ	#16	該当なし
SWE-Bench Pro	約60%	60.6%
ターミナルベンチ (2.0 Terminus)	70.3	69.7
ScreenSpot Pro (GUIグラウンディング)	79.0	なし
MCP-Atlas (ツール利用)	76.4	76.4

実装観点では、特に次の3点が重要です。

1. SWE-Bench Proでは実質同等

Plusは約60%、Maxは60.6%です。実際のソフトウェア開発タスクでは、Plusのマルチモーダル対応がコーディング能力を大きく犠牲にしているわけではありません。

他のフラッグシップモデルとの位置づけは、Qwen 3.7 vs GPT-5.5 vs Opus 4.7比較で確認できます。

2. ターミナルタスクではPlusがわずかに上回る

ターミナルベンチでは、Plusが70.3、Maxが69.7です。シェル操作やCLIベースのエージェント処理では、安価なPlusでも十分に強い結果を出しています。

3. GUIグラウンディングはPlusだけの強み

ScreenSpot ProでPlusは79.0を記録しています。Maxは画像入力に対応していないため、このタスクを実行できません。

たとえば次のようなユースケースではPlusが必須です。

スクリーンショットを見てUI不具合を検出する
Webアプリ画面からクリック位置を推定する
PDFや請求書画像から情報を抽出する
動画や画面録画を要約・解析する

ベンダー提供のベンチマークは参考値として扱い、最終判断は自分のプロンプトとデータで行うべきです。SWE-benchでは、各スイートが何を測定しているかを確認できます。

価格比較

コスト差は非常に大きいです。

	Qwen 3.7 Plus	Qwen 3.7 Max
入力 / 100万トークン	$0.40	$2.50
出力 / 100万トークン	$1.60	$7.50
キャッシュされた入力 / 100万トークン	$0.08	$0.25

Plusは入力で約6倍、出力で約5倍安価です。大量処理、長時間エージェント、RAG、分類、抽出などでは、この差がそのまま運用コストに影響します。

コスト見積もり時の注意点

Plusでは、画像と動画もトークン化され、1Mトークンのコンテキスト予算を消費します。そのため、画像や動画を多用する場合は、単純なテキスト単価だけで見積もらないでください。

実装時は次を確認します。

スクリーンショットを必要以上に高解像度で送っていないか
動画を過剰にサンプリングしていないか
同じ画像・長文コンテキストを毎回送っていないか
キャッシュ可能な入力を分離できるか
プロンプトに不要な履歴が含まれていないか

エージェントのコスト削減については、エージェントのトークンコスト削減方法と、2026年の中国LLM価格競争も参考になります。公式料金はModel Studioの料金ページで確認できます。

スペックと速度

	Qwen 3.7 Plus	Qwen 3.7 Max
入力モダリティ	テキスト、画像、動画	テキストのみ
コンテキストウィンドウ	1M (視覚機能と共有)	1M
自律実行上限	35時間	35時間
テキスト専用レイテンシ	基準	コールドパスで約7～15%高速
重み	プロプライエタリ、APIのみ	プロプライエタリ、APIのみ

Maxの隠れた強みはレイテンシです。テキストのみのコールドスタートでは、Plusより約7〜15%高速です。チャットUIやカスタマーサポートボットのように、ユーザーが「最初のトークンまでの時間」を体感しやすいアプリでは重要になる可能性があります。

速度と知能のトレードオフは、独立した分析でも追跡されています。

なお、どちらのモデルもクローズドウェイトであり、Alibaba Cloud Model Studio経由で利用します。セルフホストが必要な要件では候補から外れます。

APIで比較する手順

両モデルはOpenAI互換のModel Studioエンドポイントを共有しているため、比較はモデルIDを切り替えるだけで行えます。

1. 同じプロンプトをPlusに送る

curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.7-plus",
    "messages": [
      {
        "role": "user",
        "content": "このAPI仕様の問題点を3つ指摘してください。"
      }
    ]
  }'

2. モデルIDだけをMaxに変更する

curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.7-max",
    "messages": [
      {
        "role": "user",
        "content": "このAPI仕様の問題点を3つ指摘してください。"
      }
    ]
  }'

3. 比較すべき項目

レスポンスを比較するときは、単に「自然に見えるか」だけでなく、次を記録します。

最初のトークンまでの時間
総レスポンス時間
入力トークン数
出力トークン数
ツール呼び出しの正確性
JSON形式の安定性
同じプロンプトでの再現性
失敗時の挙動
推定コスト

どちらを選ぶべきか

Qwen 3.7 Plusを選ぶケース

Plusを選ぶべきなのは、次のような場合です。

画像、スクリーンショット、PDF、動画を扱う
GUIを読み取るコンピューター利用エージェントを作る
コストを抑えたい
大量の分類・抽出・要約を実行する
ツール利用やターミナル作業を含むエージェントを構築する
将来的にマルチモーダル入力が必要になる可能性がある

Qwen 3.7 Maxを選ぶケース

Maxを選ぶべきなのは、次のような場合です。

テキスト専用の品質を少しでも上げたい
レイテンシに敏感なチャット体験を作る
画像や動画を一切送らない
テキストのみのコールドスタート速度を重視する
Maxの追加コストを正当化できる明確なKPIがある

ほとんどのチームにとって、Plusが現実的なデフォルトです。Maxを採用する場合は、「テキスト専用モデルに約6倍の入力コストを払う理由」を明確にする必要があります。

ワークロード別の選択例

ワークロード	選択	理由
スクリーンショットQAまたは視覚回帰エージェント	Plus	GUIグラウンディングが必要。画面を見られるのはPlusのみ
請求書、領収書、スキャンPDFからの情報抽出	Plus	ドキュメント画像には視覚入力が必要
大量テキスト分類	Plus	十分なテキスト性能があり、コストが低い
低レイテンシ顧客サポートチャットボット	Max	テキスト専用コールドスタートの速さが重要
長時間の自律コーディング実行	どちらでも	SWE-Bench Proでは近く、通常はコストでPlusを選ぶ

パターンは明確です。ワークロードがテキスト専用で、かつレイテンシに強く依存していない限り、Plusのほうが安全なデフォルトです。

Apidogで両モデルをテストする

両モデルは同じOpenAI互換エンドポイントで呼び出せるため、Apidog上でリクエストを複製し、モデルIDだけを変更して比較できます。

Apidogでは、次のような検証フローを組めます。

Model StudioのAPIキーを環境変数として保存する
Plus用リクエストを作成する
リクエストを複製してMax用にモデルIDだけ変更する
同じプロンプトでレスポンスを比較する
生JSON、トークン使用量、エラーを確認する
必要に応じてエンドポイントをモックする
アプリ側の実装を進めながらAPI仕様を検証する

マルチモーダルなPlusリクエストについては、Qwen 3.7 Plus APIガイドで画像と動画のペイロード形式を確認できます。テキストパスは基本のQwen 3.7 APIガイドを参照してください。

エージェント実行中にツール呼び出しを連鎖させる場合は、ApidogのAIエージェントデバッガーで呼び出しの流れを追跡できます。

本番に組み込む前に、Apidogをダウンロードして両方のQwen 3.7モデルを同じ条件で比較してください。

よくある質問

Qwen 3.7 PlusはMaxより優れていますか？

ほとんどのワークロードでは、はい。Plusは視覚機能を持ち、コーディングとツール利用ではMaxに近く、コストも大幅に低いためです。Maxは純粋なテキストのリーダーボードとテキスト専用レイテンシでわずかに優位です。

Plusはどれくらい安価ですか？

入力では約6倍安価です。100万トークンあたり、Plusは$0.40、Maxは$2.50です。出力では約5倍安価で、Plusは$1.60、Maxは$7.50です。

同じコンテキストウィンドウを使えますか？

はい。両方とも1Mトークンのコンテキストウィンドウを持ちます。ただしPlusでは、画像と動画も同じコンテキスト予算を消費します。

Maxは画像を処理できますか？

いいえ。Maxはテキスト専用です。画像または動画入力が必要な場合はPlusを使う必要があります。

どちらもオープンソースですか？

いいえ。両方ともプロプライエタリで、Alibaba Cloud Model Studio経由で利用します。重みをダウンロードしたり、セルフホストしたりすることはできません。

どちらが速いですか？

テキスト専用のコールドパスでは、Maxが約7〜15%高速です。ただし、画像・動画・GUI理解が必要な場合はPlusしか選択肢がありません。

まとめ

Qwen 3.7 MaxとPlusは、同じ用途で単純に競合するモデルではありません。Maxはテキスト専用の速度と品質を少しでも重視するモデルです。一方、Plusは安価でマルチモーダルな汎用モデルであり、コストや視覚入力が重要な実装ではほとんどの場合に有利です。

実装では、まずPlusをデフォルトとして検証し、テキスト専用レイテンシや品質が明確なKPIになる場合だけMaxを比較してください。どちらを使う場合でも、ベンチマークではなく自分のプロンプト、データ、APIレスポンスで判断することが重要です。Apidogで両モデルを並べてテストし、本番投入前に応答品質、コスト、エラー処理を確認しましょう。

DEV Community