Alibabaは2週間以内に、Qwen 3.7シリーズの2つのフラッグシップモデルを発表しました。テキスト専用推論モデルのQwen3.7-Maxと、画像・動画入力に対応したマルチモーダル版のQwen3.7-Plusです。どちらも1Mトークンのコンテキストと35時間の自律稼働上限を持つため、実装時は「性能」だけでなく「入力形式」「レイテンシ」「コスト」で選ぶ必要があります。
この記事では、ベンチマーク、料金、速度、APIテスト時の確認ポイントに基づいて両モデルを比較します。各モデルの背景を先に確認したい場合は、Qwen 3.7 Plus概要とQwen 3.7とは何かのガイドを参照してください。どちらを選ぶ場合でも、API経由で呼び出し、実際の応答・コスト・失敗ケースを検証する必要があります。その検証にはApidogを使えます。
結論:多くの実装ではPlusをデフォルトにする
基本方針はシンプルです。
- Qwen 3.7 Plus:ほとんどのアプリケーションのデフォルト
- Qwen 3.7 Max:テキスト専用かつ低レイテンシを最優先する場合
Plusはツール利用でMaxと同等、ターミナルタスクではMaxをわずかに上回り、画像や動画入力も扱えます。さらに、コストはMaxの約6分の1です。多くのワークロードでは、この価格差だけでPlusを選ぶ理由になります。
Maxを選ぶべきなのは、純粋なテキスト処理に最適化したい場合です。テキスト系リーダーボードではわずかに優位で、テキスト専用のコールドスタートでもやや高速です。スクリーンショット、PDF画像、UI画面、動画を一切扱わないなら、Maxの優位性が意味を持つことがあります。
核となる違い
Qwen 3.7 Maxは、テキスト専用のフラッグシップモデルです。テキスト入力のみで推論、コーディング、長いエージェントチェーンを実行できます。
Qwen 3.7 Plusは、同じ系統の基盤に視覚機能を追加したモデルです。画像や動画を入力でき、スクリーンショットからGUIを理解してクリック座標を返すようなタスクにも対応します。さらに料金はMaxより大幅に安価です。
実装上の判断は次のようになります。
- 画像・動画・UI画面を扱う → Plus
- コストを抑えたい → Plus
- テキストのみで最速応答が必要 → Max
- テキスト品質のわずかな差を重視 → Maxを検証
ベンチマーク比較
ベンチマークでは、Plusは純粋なテキストでMaxにわずかに劣ります。一方で、ツール利用では同等で、視覚入力が必要なタスクではPlusだけが対応できます。
| ベンチマーク | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LMアリーナ (テキスト) | #15 | #13 |
| LMアリーナ (コーディング) | #12 | #10 |
| ビジョンアリーナ | #16 | 該当なし |
| SWE-Bench Pro | 約60% | 60.6% |
| ターミナルベンチ (2.0 Terminus) | 70.3 | 69.7 |
| ScreenSpot Pro (GUIグラウンディング) | 79.0 | なし |
| MCP-Atlas (ツール利用) | 76.4 | 76.4 |
実装観点では、特に次の3点が重要です。
1. SWE-Bench Proでは実質同等
Plusは約60%、Maxは60.6%です。実際のソフトウェア開発タスクでは、Plusのマルチモーダル対応がコーディング能力を大きく犠牲にしているわけではありません。
他のフラッグシップモデルとの位置づけは、Qwen 3.7 vs GPT-5.5 vs Opus 4.7比較で確認できます。
2. ターミナルタスクではPlusがわずかに上回る
ターミナルベンチでは、Plusが70.3、Maxが69.7です。シェル操作やCLIベースのエージェント処理では、安価なPlusでも十分に強い結果を出しています。
3. GUIグラウンディングはPlusだけの強み
ScreenSpot ProでPlusは79.0を記録しています。Maxは画像入力に対応していないため、このタスクを実行できません。
たとえば次のようなユースケースではPlusが必須です。
- スクリーンショットを見てUI不具合を検出する
- Webアプリ画面からクリック位置を推定する
- PDFや請求書画像から情報を抽出する
- 動画や画面録画を要約・解析する
ベンダー提供のベンチマークは参考値として扱い、最終判断は自分のプロンプトとデータで行うべきです。SWE-benchでは、各スイートが何を測定しているかを確認できます。
価格比較
コスト差は非常に大きいです。
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| 入力 / 100万トークン | $0.40 | $2.50 |
| 出力 / 100万トークン | $1.60 | $7.50 |
| キャッシュされた入力 / 100万トークン | $0.08 | $0.25 |
Plusは入力で約6倍、出力で約5倍安価です。大量処理、長時間エージェント、RAG、分類、抽出などでは、この差がそのまま運用コストに影響します。
コスト見積もり時の注意点
Plusでは、画像と動画もトークン化され、1Mトークンのコンテキスト予算を消費します。そのため、画像や動画を多用する場合は、単純なテキスト単価だけで見積もらないでください。
実装時は次を確認します。
- スクリーンショットを必要以上に高解像度で送っていないか
- 動画を過剰にサンプリングしていないか
- 同じ画像・長文コンテキストを毎回送っていないか
- キャッシュ可能な入力を分離できるか
- プロンプトに不要な履歴が含まれていないか
エージェントのコスト削減については、エージェントのトークンコスト削減方法と、2026年の中国LLM価格競争も参考になります。公式料金はModel Studioの料金ページで確認できます。
スペックと速度
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| 入力モダリティ | テキスト、画像、動画 | テキストのみ |
| コンテキストウィンドウ | 1M (視覚機能と共有) | 1M |
| 自律実行上限 | 35時間 | 35時間 |
| テキスト専用レイテンシ | 基準 | コールドパスで約7~15%高速 |
| 重み | プロプライエタリ、APIのみ | プロプライエタリ、APIのみ |
Maxの隠れた強みはレイテンシです。テキストのみのコールドスタートでは、Plusより約7〜15%高速です。チャットUIやカスタマーサポートボットのように、ユーザーが「最初のトークンまでの時間」を体感しやすいアプリでは重要になる可能性があります。
速度と知能のトレードオフは、独立した分析でも追跡されています。
なお、どちらのモデルもクローズドウェイトであり、Alibaba Cloud Model Studio経由で利用します。セルフホストが必要な要件では候補から外れます。
APIで比較する手順
両モデルはOpenAI互換のModel Studioエンドポイントを共有しているため、比較はモデルIDを切り替えるだけで行えます。
1. 同じプロンプトをPlusに送る
curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
-H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.7-plus",
"messages": [
{
"role": "user",
"content": "このAPI仕様の問題点を3つ指摘してください。"
}
]
}'
2. モデルIDだけをMaxに変更する
curl "$MODEL_STUDIO_BASE_URL/chat/completions" \
-H "Authorization: Bearer $MODEL_STUDIO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.7-max",
"messages": [
{
"role": "user",
"content": "このAPI仕様の問題点を3つ指摘してください。"
}
]
}'
3. 比較すべき項目
レスポンスを比較するときは、単に「自然に見えるか」だけでなく、次を記録します。
- 最初のトークンまでの時間
- 総レスポンス時間
- 入力トークン数
- 出力トークン数
- ツール呼び出しの正確性
- JSON形式の安定性
- 同じプロンプトでの再現性
- 失敗時の挙動
- 推定コスト
どちらを選ぶべきか
Qwen 3.7 Plusを選ぶケース
Plusを選ぶべきなのは、次のような場合です。
- 画像、スクリーンショット、PDF、動画を扱う
- GUIを読み取るコンピューター利用エージェントを作る
- コストを抑えたい
- 大量の分類・抽出・要約を実行する
- ツール利用やターミナル作業を含むエージェントを構築する
- 将来的にマルチモーダル入力が必要になる可能性がある
Qwen 3.7 Maxを選ぶケース
Maxを選ぶべきなのは、次のような場合です。
- テキスト専用の品質を少しでも上げたい
- レイテンシに敏感なチャット体験を作る
- 画像や動画を一切送らない
- テキストのみのコールドスタート速度を重視する
- Maxの追加コストを正当化できる明確なKPIがある
ほとんどのチームにとって、Plusが現実的なデフォルトです。Maxを採用する場合は、「テキスト専用モデルに約6倍の入力コストを払う理由」を明確にする必要があります。
ワークロード別の選択例
| ワークロード | 選択 | 理由 |
|---|---|---|
| スクリーンショットQAまたは視覚回帰エージェント | Plus | GUIグラウンディングが必要。画面を見られるのはPlusのみ |
| 請求書、領収書、スキャンPDFからの情報抽出 | Plus | ドキュメント画像には視覚入力が必要 |
| 大量テキスト分類 | Plus | 十分なテキスト性能があり、コストが低い |
| 低レイテンシ顧客サポートチャットボット | Max | テキスト専用コールドスタートの速さが重要 |
| 長時間の自律コーディング実行 | どちらでも | SWE-Bench Proでは近く、通常はコストでPlusを選ぶ |
パターンは明確です。ワークロードがテキスト専用で、かつレイテンシに強く依存していない限り、Plusのほうが安全なデフォルトです。
Apidogで両モデルをテストする
両モデルは同じOpenAI互換エンドポイントで呼び出せるため、Apidog上でリクエストを複製し、モデルIDだけを変更して比較できます。
Apidogでは、次のような検証フローを組めます。
- Model StudioのAPIキーを環境変数として保存する
- Plus用リクエストを作成する
- リクエストを複製してMax用にモデルIDだけ変更する
- 同じプロンプトでレスポンスを比較する
- 生JSON、トークン使用量、エラーを確認する
- 必要に応じてエンドポイントをモックする
- アプリ側の実装を進めながらAPI仕様を検証する
マルチモーダルなPlusリクエストについては、Qwen 3.7 Plus APIガイドで画像と動画のペイロード形式を確認できます。テキストパスは基本のQwen 3.7 APIガイドを参照してください。
エージェント実行中にツール呼び出しを連鎖させる場合は、ApidogのAIエージェントデバッガーで呼び出しの流れを追跡できます。
本番に組み込む前に、Apidogをダウンロードして両方のQwen 3.7モデルを同じ条件で比較してください。
よくある質問
Qwen 3.7 PlusはMaxより優れていますか?
ほとんどのワークロードでは、はい。Plusは視覚機能を持ち、コーディングとツール利用ではMaxに近く、コストも大幅に低いためです。Maxは純粋なテキストのリーダーボードとテキスト専用レイテンシでわずかに優位です。
Plusはどれくらい安価ですか?
入力では約6倍安価です。100万トークンあたり、Plusは$0.40、Maxは$2.50です。出力では約5倍安価で、Plusは$1.60、Maxは$7.50です。
同じコンテキストウィンドウを使えますか?
はい。両方とも1Mトークンのコンテキストウィンドウを持ちます。ただしPlusでは、画像と動画も同じコンテキスト予算を消費します。
Maxは画像を処理できますか?
いいえ。Maxはテキスト専用です。画像または動画入力が必要な場合はPlusを使う必要があります。
どちらもオープンソースですか?
いいえ。両方ともプロプライエタリで、Alibaba Cloud Model Studio経由で利用します。重みをダウンロードしたり、セルフホストしたりすることはできません。
どちらが速いですか?
テキスト専用のコールドパスでは、Maxが約7〜15%高速です。ただし、画像・動画・GUI理解が必要な場合はPlusしか選択肢がありません。
まとめ
Qwen 3.7 MaxとPlusは、同じ用途で単純に競合するモデルではありません。Maxはテキスト専用の速度と品質を少しでも重視するモデルです。一方、Plusは安価でマルチモーダルな汎用モデルであり、コストや視覚入力が重要な実装ではほとんどの場合に有利です。
実装では、まずPlusをデフォルトとして検証し、テキスト専用レイテンシや品質が明確なKPIになる場合だけMaxを比較してください。どちらを使う場合でも、ベンチマークではなく自分のプロンプト、データ、APIレスポンスで判断することが重要です。Apidogで両モデルを並べてテストし、本番投入前に応答品質、コスト、エラー処理を確認しましょう。



Top comments (0)