DEV Community

Cover image for Qwen 3.7 PlusとMax、どちらのQwen 3.7モデルを選ぶべき?
Akira
Akira

Posted on • Originally published at apidog.com

Qwen 3.7 PlusとMax、どちらのQwen 3.7モデルを選ぶべき?

Alibabaは2週間以内に、Qwen 3.7シリーズの2つのフラッグシップモデルを発表しました。テキスト専用推論モデルのQwen3.7-Maxと、画像・動画入力に対応したマルチモーダル版のQwen3.7-Plusです。どちらも1Mトークンのコンテキストと35時間の自律稼働上限を持つため、実装時は「性能」だけでなく「入力形式」「レイテンシ」「コスト」で選ぶ必要があります。

今すぐApidogを試す

この記事では、ベンチマーク、料金、速度、APIテスト時の確認ポイントに基づいて両モデルを比較します。各モデルの背景を先に確認したい場合は、Qwen 3.7 Plus概要Qwen 3.7とは何かのガイドを参照してください。どちらを選ぶ場合でも、API経由で呼び出し、実際の応答・コスト・失敗ケースを検証する必要があります。その検証にはApidogを使えます。

結論:多くの実装ではPlusをデフォルトにする

基本方針はシンプルです。

  • Qwen 3.7 Plus:ほとんどのアプリケーションのデフォルト
  • Qwen 3.7 Max:テキスト専用かつ低レイテンシを最優先する場合

Plusはツール利用でMaxと同等、ターミナルタスクではMaxをわずかに上回り、画像や動画入力も扱えます。さらに、コストはMaxの約6分の1です。多くのワークロードでは、この価格差だけでPlusを選ぶ理由になります。

Maxを選ぶべきなのは、純粋なテキスト処理に最適化したい場合です。テキスト系リーダーボードではわずかに優位で、テキスト専用のコールドスタートでもやや高速です。スクリーンショット、PDF画像、UI画面、動画を一切扱わないなら、Maxの優位性が意味を持つことがあります。

核となる違い

Qwen 3.7 Maxは、テキスト専用のフラッグシップモデルです。テキスト入力のみで推論、コーディング、長いエージェントチェーンを実行できます。

Qwen 3.7 Plusは、同じ系統の基盤に視覚機能を追加したモデルです。画像や動画を入力でき、スクリーンショットからGUIを理解してクリック座標を返すようなタスクにも対応します。さらに料金はMaxより大幅に安価です。

実装上の判断は次のようになります。

  • 画像・動画・UI画面を扱う → Plus
  • コストを抑えたい → Plus
  • テキストのみで最速応答が必要 → Max
  • テキスト品質のわずかな差を重視 → Maxを検証

ベンチマーク比較

ベンチマークでは、Plusは純粋なテキストでMaxにわずかに劣ります。一方で、ツール利用では同等で、視覚入力が必要なタスクではPlusだけが対応できます。

ベンチマーク Qwen 3.7 Plus Qwen 3.7 Max
LMアリーナ (テキスト) #15 #13
LMアリーナ (コーディング) #12 #10
ビジョンアリーナ #16 該当なし
SWE-Bench Pro 約60% 60.6%
ターミナルベンチ (2.0 Terminus) 70.3 69.7
ScreenSpot Pro (GUIグラウンディング) 79.0 なし
MCP-Atlas (ツール利用) 76.4 76.4

実装観点では、特に次の3点が重要です。

1. SWE-Bench Proでは実質同等

Plusは約60%、Maxは60.6%です。実際のソフトウェア開発タスクでは、Plusのマルチモーダル対応がコーディング能力を大きく犠牲にしているわけではありません。

他のフラッグシップモデルとの位置づけは、Qwen 3.7 vs GPT-5.5 vs Opus 4.7比較で確認できます。

2. ターミナルタスクではPlusがわずかに上回る

ターミナルベンチでは、Plusが70.3、Maxが69.7です。シェル操作やCLIベースのエージェント処理では、安価なPlusでも十分に強い結果を出しています。

3. GUIグラウンディングはPlusだけの強み

ScreenSpot ProでPlusは79.0を記録しています。Maxは画像入力に対応していないため、このタスクを実行できません。

たとえば次のようなユースケースではPlusが必須です。

  • スクリーンショットを見てUI不具合を検出する
  • Webアプリ画面からクリック位置を推定する
  • PDFや請求書画像から情報を抽出する
  • 動画や画面録画を要約・解析する

ベンダー提供のベンチマークは参考値として扱い、最終判断は自分のプロンプトとデータで行うべきです。SWE-benchでは、各スイートが何を測定しているかを確認できます。

価格比較

コスト差は非常に大きいです。

Qwen 3.7 Plus Qwen 3.7 Max
入力 / 100万トークン $0.40 $2.50
出力 / 100万トークン $1.60 $7.50
キャッシュされた入力 / 100万トークン $0.08 $0.25

Plusは入力で約6倍、出力で約5倍安価です。大量処理、長時間エージェント、RAG、分類、抽出などでは、この差がそのまま運用コストに影響します。

コスト見積もり時の注意点

Plusでは、画像と動画もトークン化され、1Mトークンのコンテキスト予算を消費します。そのため、画像や動画を多用する場合は、単純なテキスト単価だけで見積もらないでください。

実装時は次を確認します。

  • スクリーンショットを必要以上に高解像度で送っていないか
  • 動画を過剰にサンプリングしていないか
  • 同じ画像・長文コンテキストを毎回送っていないか
  • キャッシュ可能な入力を分離できるか
  • プロンプトに不要な履歴が含まれていないか

エージェントのコスト削減については、エージェントのトークンコスト削減方法と、2026年の中国LLM価格競争も参考になります。公式料金はModel Studioの料金ページで確認できます。

スペックと速度

Qwen 3.7 Plus Qwen 3.7 Max
入力モダリティ テキスト、画像、動画 テキストのみ
コンテキストウィンドウ 1M (視覚機能と共有) 1M
自律実行上限 35時間 35時間
テキスト専用レイテンシ 基準 コールドパスで約7~15%高速
重み プロプライエタリ、APIのみ プロプライエタリ、APIのみ

Maxの隠れた強みはレイテンシです。テキストのみのコールドスタートでは、Plusより約7〜15%高速です。チャットUIやカスタマーサポートボットのように、ユーザーが「最初のトークンまでの時間」を体感しやすいアプリでは重要になる可能性があります。

速度と知能のトレードオフは、独立した分析でも追跡されています。

なお、どちらのモデルもクローズドウェイトであり、Alibaba Cloud Model Studio経由で利用します。セルフホストが必要な要件では候補から外れます。

APIで比較する手順

両モデルはOpenAI互換のModel Studioエンドポイントを共有しているため、比較はモデルIDを切り替えるだけで行えます。

1. 同じプロンプトをPlusに送る

curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.7-plus",
    "messages": [
      {
        "role": "user",
        "content": "このAPI仕様の問題点を3つ指摘してください。"
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

2. モデルIDだけをMaxに変更する

curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.7-max",
    "messages": [
      {
        "role": "user",
        "content": "このAPI仕様の問題点を3つ指摘してください。"
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

3. 比較すべき項目

レスポンスを比較するときは、単に「自然に見えるか」だけでなく、次を記録します。

  • 最初のトークンまでの時間
  • 総レスポンス時間
  • 入力トークン数
  • 出力トークン数
  • ツール呼び出しの正確性
  • JSON形式の安定性
  • 同じプロンプトでの再現性
  • 失敗時の挙動
  • 推定コスト

どちらを選ぶべきか

Qwen 3.7 Plusを選ぶケース

Plusを選ぶべきなのは、次のような場合です。

  • 画像、スクリーンショット、PDF、動画を扱う
  • GUIを読み取るコンピューター利用エージェントを作る
  • コストを抑えたい
  • 大量の分類・抽出・要約を実行する
  • ツール利用やターミナル作業を含むエージェントを構築する
  • 将来的にマルチモーダル入力が必要になる可能性がある

Qwen 3.7 Maxを選ぶケース

Maxを選ぶべきなのは、次のような場合です。

  • テキスト専用の品質を少しでも上げたい
  • レイテンシに敏感なチャット体験を作る
  • 画像や動画を一切送らない
  • テキストのみのコールドスタート速度を重視する
  • Maxの追加コストを正当化できる明確なKPIがある

ほとんどのチームにとって、Plusが現実的なデフォルトです。Maxを採用する場合は、「テキスト専用モデルに約6倍の入力コストを払う理由」を明確にする必要があります。

ワークロード別の選択例

ワークロード 選択 理由
スクリーンショットQAまたは視覚回帰エージェント Plus GUIグラウンディングが必要。画面を見られるのはPlusのみ
請求書、領収書、スキャンPDFからの情報抽出 Plus ドキュメント画像には視覚入力が必要
大量テキスト分類 Plus 十分なテキスト性能があり、コストが低い
低レイテンシ顧客サポートチャットボット Max テキスト専用コールドスタートの速さが重要
長時間の自律コーディング実行 どちらでも SWE-Bench Proでは近く、通常はコストでPlusを選ぶ

パターンは明確です。ワークロードがテキスト専用で、かつレイテンシに強く依存していない限り、Plusのほうが安全なデフォルトです。

Apidogで両モデルをテストする

両モデルは同じOpenAI互換エンドポイントで呼び出せるため、Apidog上でリクエストを複製し、モデルIDだけを変更して比較できます。

Apidogでは、次のような検証フローを組めます。

  1. Model StudioのAPIキーを環境変数として保存する
  2. Plus用リクエストを作成する
  3. リクエストを複製してMax用にモデルIDだけ変更する
  4. 同じプロンプトでレスポンスを比較する
  5. 生JSON、トークン使用量、エラーを確認する
  6. 必要に応じてエンドポイントをモックする
  7. アプリ側の実装を進めながらAPI仕様を検証する

マルチモーダルなPlusリクエストについては、Qwen 3.7 Plus APIガイドで画像と動画のペイロード形式を確認できます。テキストパスは基本のQwen 3.7 APIガイドを参照してください。

エージェント実行中にツール呼び出しを連鎖させる場合は、ApidogのAIエージェントデバッガーで呼び出しの流れを追跡できます。

本番に組み込む前に、Apidogをダウンロードして両方のQwen 3.7モデルを同じ条件で比較してください。

よくある質問

Qwen 3.7 PlusはMaxより優れていますか?

ほとんどのワークロードでは、はい。Plusは視覚機能を持ち、コーディングとツール利用ではMaxに近く、コストも大幅に低いためです。Maxは純粋なテキストのリーダーボードとテキスト専用レイテンシでわずかに優位です。

Plusはどれくらい安価ですか?

入力では約6倍安価です。100万トークンあたり、Plusは$0.40、Maxは$2.50です。出力では約5倍安価で、Plusは$1.60、Maxは$7.50です。

同じコンテキストウィンドウを使えますか?

はい。両方とも1Mトークンのコンテキストウィンドウを持ちます。ただしPlusでは、画像と動画も同じコンテキスト予算を消費します。

Maxは画像を処理できますか?

いいえ。Maxはテキスト専用です。画像または動画入力が必要な場合はPlusを使う必要があります。

どちらもオープンソースですか?

いいえ。両方ともプロプライエタリで、Alibaba Cloud Model Studio経由で利用します。重みをダウンロードしたり、セルフホストしたりすることはできません。

どちらが速いですか?

テキスト専用のコールドパスでは、Maxが約7〜15%高速です。ただし、画像・動画・GUI理解が必要な場合はPlusしか選択肢がありません。

まとめ

Qwen 3.7 MaxとPlusは、同じ用途で単純に競合するモデルではありません。Maxはテキスト専用の速度と品質を少しでも重視するモデルです。一方、Plusは安価でマルチモーダルな汎用モデルであり、コストや視覚入力が重要な実装ではほとんどの場合に有利です。

実装では、まずPlusをデフォルトとして検証し、テキスト専用レイテンシや品質が明確なKPIになる場合だけMaxを比較してください。どちらを使う場合でも、ベンチマークではなく自分のプロンプト、データ、APIレスポンスで判断することが重要です。Apidogで両モデルを並べてテストし、本番投入前に応答品質、コスト、エラー処理を確認しましょう。

Top comments (0)