AlibabaのQwenチームは、最新フラッグシップモデルQwen3.7-Maxを発表しました。Qwen3.7-Max-Previewは正式発表前に公開リーダーボードへ登場し、その後2026年のAlibaba Cloud Summitで公開されました。長時間のエージェント実行、100万トークンのコンテキストウィンドウ、推論重視の設計が特徴です。
開発者にとって重要なのは、「このモデルをどう評価し、どうAPIとして組み込むか」です。AIモデルは最終的に、アプリケーションのAPI呼び出し、レスポンス検証、モック、テストの対象になります。その実装フローを支えるツールとして、Apidogがあります。この記事では、Qwen 3.7の特徴、利用方法、ベンチマーク、実装時の注意点を整理します。
TL;DR
- Qwen3.7-Max-PreviewはAlibaba Qwenの最新フラッグシップ推論モデルです。
- 100万トークンのコンテキストウィンドウと拡張思考モードを備えています。
- Artificial Analysis Intelligence Indexで57点を獲得し、公開リーダーボードで1位の結果として報告されました。
- LM Arenaのテキストリーダーボードでは約1,475 Eloを記録しました。
- 2026年5月中旬時点では、Maxバリアントはプレビュー版のみです。
- Alibaba CloudでAPIアクセスが順次展開されています。
- Qwen 3.7のオープンウェイトモデルは、まだ公開されていません。
Qwen 3.7とは?
Qwen 3.7は、AlibabaのAI部門であるQwenによる最新世代の大規模言語モデルです。中心となるモデルはQwen3.7-Max-Previewで、Alibabaはこれをエージェント用途に向けた高度なモデルとして説明しています。
「Max」はQwenファミリーにおける上位ティアを示します。Qwen3.7-Max-Previewは推論モデルであり、単純に次のトークンを生成するだけでなく、回答前に問題を段階的に処理する設計です。
このタイプのモデルは、次のようなタスクに向いています。
- 複雑なコード生成
- 既存コードのリファクタリング
- 多段階の数学・論理問題
- 長いドキュメントの横断的な分析
- ツール呼び出しを含むエージェントワークフロー
一方で、推論モデルは通常のチャットモデルよりもトークン使用量とレイテンシが増えます。短い分類、要約、単純な書き換えでは過剰になる可能性があります。
Qwen3.7-Max-Previewは、2026年5月14日頃にLM Arenaのテキストリーダーボードへ先に登場し、正式発表は5月20日のAlibaba Cloud Summitで行われました。AlibabaのAPIプラットフォームには5月19日に投入されています。そのため、現時点で利用できるモデル名には「Preview」が付いています。
Qwen 3.7のバリアント
現時点では、確認済み情報と未確認情報を分けて扱う必要があります。
確認済み
-
Qwen3.7-Max-Preview
- 実在するモデルです。
- Alibabaが発表したフラッグシップ推論モデルです。
- クローズドウェイトで提供されています。
- Alibaba Cloud API経由で順次利用可能になっています。
未確認
-
Qwen 3.7 Plus
- 過去のQwen世代ではMaxとPlusが並行して提供されることがありました。
- ただし、2026年5月中旬時点でQwen3.7-Plusは正式発表されていません。
-
オープンウェイト版Qwen 3.7
- Alibabaは過去世代で一部の中規模モデルをオープンウェイトとして提供してきました。
- しかし、2026年5月中旬時点でQwen 3.7のウェイトはQwenLM GitHubやHugging Faceで確認されていません。
実装上の判断としては、現時点で「Qwen 3.7」と言う場合、ほぼQwen3.7-Max-Previewを指すと考えるのが安全です。
100万トークンのコンテキストウィンドウ
Artificial Analysisによると、Qwen3.7-Max-Previewは100万トークンのコンテキストウィンドウを備えています。
これは、1回のリクエストでモデルが参照できる情報量を意味します。コンテキストには次が含まれます。
- システムプロンプト
- ユーザープロンプト
- 会話履歴
- 貼り付けたドキュメント
- コード
- モデルの生成出力
100万トークンは、英語ではおよそ70万〜75万語に相当します。実用上は、次のような入力を1回のリクエストに含められる可能性があります。
- 中規模コードリポジトリ
- 複数の長いPDF相当のテキスト
- 長期間のチャット履歴
- 大量の仕様書や設計メモ
ただし、実装時には次の2点に注意してください。
-
コンテキスト上限は品質保証ではない
- ウィンドウが大きいほど、常に正確に検索・推論できるとは限りません。
- 長コンテキストでの独立検証はまだ十分ではありません。
-
大きなコンテキストは高コスト
- APIでは入力トークンも課金対象になります。
- 100万トークンを毎回送る設計は、コスト面で現実的でない場合があります。
実装では、まず以下のような方針を取るのが安全です。
1. 必要なドキュメントだけを抽出する
2. 大きな入力は要約または検索で絞り込む
3. 本当に必要な場合だけ長コンテキストを使う
4. 入力トークン数をログに残す
5. モデル呼び出し単位でコストを監視する
推論と拡張思考モード
Qwen3.7-Max-Previewは推論モデルです。難しい問題を与えると、モデルは回答前に内部的な思考ステップを生成します。
Qwen ChatのようなUIでは、「Thinking」モードとして表示される場合があります。これは、モデルが計画、検証、修正を行いながら回答を組み立てる動作です。
この設計は、次のようなタスクで有効です。
- 複雑なバグ調査
- 複数ファイルにまたがるコード変更
- 長い仕様からの実装計画作成
- ツール呼び出しを含むエージェント処理
- 論理的な検証が必要な回答
一方で、推論モデルはトークンを多く消費します。Artificial Analysisの評価では、Qwen3.7-Maxは約9700万トークンを生成したと報告されています。これは同ベンチマークにおけるモデル平均の約2400万トークンを大きく上回ります。
つまり、実装時にはタスクごとにモデルの使い分けが必要です。
単純な分類 -> 軽量モデルまたは短いプロンプト
短い文章生成 -> 推論なしの通常モード
コード修正 -> Qwen3.7-Maxのような推論モデル
長期エージェント -> 推論モデル + ツール実行ログ
テストを書く場合は、思考過程の文言ではなく、最終回答を検証対象にするべきです。推論出力は長く、毎回変動しやすいためです。
モデル呼び出しの検査やレスポンス確認の流れは、Qwen 3.7 APIの使用方法に関するガイドで詳しく扱われています。
Qwen 3.7のベンチマーク
ベンチマークは参考になりますが、実装判断では過信しない方が安全です。特にプレビューモデルは正式版までに挙動が変わる可能性があります。
Artificial Analysis Intelligence Index
Artificial Analysis Intelligence Indexは、推論、知識、数学、コーディングなどを統合した複合スコアです。
Artificial Analysisによると、Qwen3.7-Maxはこのインデックスで57点を獲得しました。これは、以前のQwen 3.6 Max Previewの52点から5ポイント上昇した結果であり、公開リーダーボード上の218モデル中1位として報告されました。
ただし、このスコアは推論能力を強く反映します。Qwen 3.7は推論トークンを多く使うため、コストや速度も同時に評価する必要があります。
LM Arena テキストEloスコア
LM Arenaは、人間の好みに基づいてモデルを比較するリーダーボードです。ユーザーが2つの匿名モデルの回答を比較し、良い方に投票します。その結果がEloレーティングとして反映されます。
Qwen3.7-Max-Previewは、報道によるとLM Arenaのテキストリーダーボードで約1,475 Eloを記録し、全体で約13位に位置しました。数学やコーディングなど一部カテゴリでは、より高い順位に入っています。
Artificial AnalysisとLM Arenaは測っているものが異なります。
| 指標 | 測るもの |
|---|---|
| Artificial Analysis Intelligence Index | タスク正解率、推論、数学、コードなど |
| LM Arena Elo | 人間が好む回答品質 |
そのため、あるモデルが一方で1位でも、もう一方で圧倒的とは限りません。
エージェント性能に関する主張
Alibabaは、Qwen3.7-Maxが長時間のエージェント実行に強いと説明しています。発表では、最大35時間の自律的なタスク実行や、1回の実行で1,000回以上のツール呼び出しを処理したとされています。
ただし、これらはAlibaba自身の主張です。第三者検証が増えるまでは、ベンダー発表として扱うのが妥当です。
実装で確認すべきポイントは次の通りです。
- 長時間実行で状態を維持できるか
- ツール呼び出しの失敗時に復旧できるか
- 同じタスクで結果が安定するか
- コストが許容範囲か
- タイムアウトやレート制限に耐えられるか
Qwen 3.7とGPT-5.5、Claude Opus 4.7、Gemini 3.5の比較
以下は、現在のフロンティアモデルとの比較です。未確認または非公開の値は明示的に扱います。
| 仕様 | Qwen3.7-Max-Preview | GPT-5.5 | Claude Opus 4.7 | Gemini 3.5 |
|---|---|---|---|---|
| ベンダー | Alibaba / Qwen | OpenAI | Anthropic | Google DeepMind |
| タイプ | 推論モデル | 推論モデル | 推論モデル | 推論モデル |
| コンテキストウィンドウ | 1Mトークン | 約1Mトークン | 約1Mトークン、報告範囲 | 約1M+トークン |
| ウェイト | プロプライエタリ | プロプライエタリ | プロプライエタリ | プロプライエタリ |
| AA Intelligence Index | 57、報告1位 | ここには未記載 | ここには未記載 | ここには未記載 |
| リリース段階 | プレビュー | 安定版 | 安定版 | 安定版 |
| 推論 / 思考モード | あり | あり | あり | あり |
| 主な強み | 長時間エージェントタスク | 自律型エージェント、ツール利用 | 本番品質のコード | 長コンテキスト、費用対効果 |
Qwen3.7-Maxは、Artificial Analysis Intelligence Indexでは非常に強い結果を示しています。ただし、モデル選定では単一ベンチマークではなく、以下を確認する必要があります。
- APIアクセスの安定性
- レート制限
- レイテンシ
- トークン単価
- ツール呼び出しの扱いやすさ
- 自社データでの精度
- 本番運用時の監視しやすさ
一般的な位置づけとしては、Claude Opus 4.7は本番コード生成、GPT-5.5は自律型エージェントやコンピュータ使用、Gemini 3.5は長コンテキストと費用対効果で語られることが多いです。Qwen 3.7は、エージェント性能とコスト競争力の領域に近いモデルです。
より詳しい比較は、Qwen 3.7 vs GPT-5.5 vs Opus 4.7で確認できます。Googleのモデルを検討している場合は、Gemini 3.5とは何かとGemini 3.5 vs GPT-5.5 vs Opus 4.7も参考になります。中国系モデルを比較する場合は、ERNIE 5.1とは何かも確認できます。
今日Qwen 3.7にアクセスする方法
2026年5月中旬時点で、現実的なアクセス方法は次の通りです。
1. Qwen Chatで試す
最も簡単な方法は、公式チャットUIであるchat.qwen.aiを使うことです。
用途は次の通りです。
- モデルの回答傾向を確認する
- Thinkingモードを試す
- コード生成や要約の品質を見る
- API実装前にプロンプトを試す
本番統合前の検証として使うのに向いています。
2. Alibaba Cloud APIを使う
Qwen3.7-Maxは2026年5月19日にAlibabaのAPIプラットフォームへ登場しました。AlibabaはAPIアクセスを順次展開中と説明しています。
実装前に確認すべき項目は次の通りです。
- 正確なモデル名
- エンドポイントURL
- 認証方式
- 入力 / 出力フォーマット
- Thinkingモードの制御方法
- 最大コンテキスト長
- 料金
- レート制限
- タイムアウト
API統合では、最初に小さなリクエストで接続を確認し、その後に実アプリのユースケースへ広げるのが安全です。
# 疑似例: 実際のエンドポイント名と認証方式はAlibaba Cloudの最新ドキュメントを確認してください
curl -X POST "https://example-endpoint/v1/chat/completions" \
-H "Authorization: Bearer $ALIBABA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.7-max-preview",
"messages": [
{
"role": "system",
"content": "あなたはコードレビューを支援するアシスタントです。"
},
{
"role": "user",
"content": "この関数のバグを指摘してください。"
}
]
}'
具体的な接続手順や推論出力の扱いは、Qwen 3.7 APIの使用方法で確認できます。
3. オープンウェイトはまだ使えない
セルフホストを前提にしている場合、現時点での答えは「まだ」です。
2026年5月中旬時点で、Qwen 3.7のオープンウェイトは公開されていません。Alibabaが過去のパターンに従う場合、将来的に中規模ティアのウェイトが提供される可能性はあります。ただし、公式発表までは未確定です。
無料または低価格で利用する方法が登場した場合は、Qwen 3.7を無料で使う方法で追跡されます。
実装時のチェックリスト
Qwen 3.7をアプリに組み込む場合、以下を最初に決めておくと実装が安定します。
API設計
- どの機能でQwen 3.7を呼ぶか
- 同期処理か非同期処理か
- 最大入力サイズをいくつにするか
- タイムアウト時にどうするか
- リトライするか
- ユーザーに途中状態を見せるか
プロンプト設計
- system messageで役割を固定する
- 出力形式をJSONなどで明示する
- 長い入力はセクションごとに区切る
- 不要なコンテキストを送らない
- 回答に根拠が必要かを指定する
例:
{
"role": "system",
"content": "あなたはAPI設計レビューを行うシニアバックエンドエンジニアです。出力はJSONで返してください。"
}
{
"role": "user",
"content": "以下のOpenAPI仕様をレビューし、破壊的変更、命名の問題、レスポンス設計の問題を指摘してください。"
}
レスポンス検証
推論モデルでは、自然文の完全一致テストは壊れやすくなります。代わりに、次のような検証が実用的です。
- JSONとしてパースできるか
- 必須キーが存在するか
- ステータスが期待値か
- エラー時のフォールバックが動くか
- 出力が最大文字数を超えていないか
モック
開発初期は、実モデルを毎回呼ぶ必要はありません。固定レスポンスをモックして、UIやバックエンドの連携を先に作れます。
{
"summary": "API仕様には認証エラー時のレスポンス定義が不足しています。",
"issues": [
{
"severity": "high",
"message": "401レスポンスのスキーマが未定義です。"
},
{
"severity": "medium",
"message": "GET /users のページネーション仕様が曖昧です。"
}
]
}
このようなリクエスト設計、モック、テスト、レスポンス検査にはApidogのようなAPI開発プラットフォームが役立ちます。Apidogをダウンロードして、Qwen 3.7用のリクエストコレクションを作成できます。
結論
Qwen 3.7は、Alibaba Qwenによる重要なフロンティアモデルです。特にQwen3.7-Max-Previewは、長いコンテキスト、推論、エージェント実行を重視する開発者にとって注目すべきモデルです。
要点は次の通りです。
- Qwen3.7-Max-PreviewはAlibabaの最新フラッグシップモデルです。
- 1Mトークンのコンテキストウィンドウと拡張思考モードを備えています。
- Artificial Analysis Intelligence Indexで57点を獲得し、公開リーダーボードで1位と報告されました。
- LM Arenaテキストでは約1,475 Eloを記録しました。
- セールスポイントは、長時間のエージェント実行、ツール利用、コード処理です。
- 2026年5月中旬時点ではプレビュー版のみで、クローズドウェイトです。
- Qwen 3.7のオープンウェイトはまだ公開されていません。
- 未確認のバリアント、サイズ、リリース日は公式発表まで憶測として扱うべきです。
Qwen 3.7を本番候補に入れるなら、次のステップは実際のAPI統合です。Apidogを使えば、APIリクエストの設計、モデルレスポンスのモック、自動テスト、ライブエンドポイントの検証をまとめて行えます。ベンチマークを見るだけでなく、実際のアプリケーションで動作を確認しましょう。



Top comments (0)