Akira

Posted on May 21 • Originally published at apidog.com

Qwen 3.7とは？アリババの最新AIモデル

AlibabaのQwenチームは、最新フラッグシップモデルQwen3.7-Maxを発表しました。Qwen3.7-Max-Previewは正式発表前に公開リーダーボードへ登場し、その後2026年のAlibaba Cloud Summitで公開されました。長時間のエージェント実行、100万トークンのコンテキストウィンドウ、推論重視の設計が特徴です。

今すぐApidogを試す

開発者にとって重要なのは、「このモデルをどう評価し、どうAPIとして組み込むか」です。AIモデルは最終的に、アプリケーションのAPI呼び出し、レスポンス検証、モック、テストの対象になります。その実装フローを支えるツールとして、Apidogがあります。この記事では、Qwen 3.7の特徴、利用方法、ベンチマーク、実装時の注意点を整理します。

TL;DR

Qwen3.7-Max-PreviewはAlibaba Qwenの最新フラッグシップ推論モデルです。
100万トークンのコンテキストウィンドウと拡張思考モードを備えています。
Artificial Analysis Intelligence Indexで57点を獲得し、公開リーダーボードで1位の結果として報告されました。
LM Arenaのテキストリーダーボードでは約1,475 Eloを記録しました。
2026年5月中旬時点では、Maxバリアントはプレビュー版のみです。
Alibaba CloudでAPIアクセスが順次展開されています。
Qwen 3.7のオープンウェイトモデルは、まだ公開されていません。

Qwen 3.7とは？

Qwen 3.7は、AlibabaのAI部門であるQwenによる最新世代の大規模言語モデルです。中心となるモデルはQwen3.7-Max-Previewで、Alibabaはこれをエージェント用途に向けた高度なモデルとして説明しています。

「Max」はQwenファミリーにおける上位ティアを示します。Qwen3.7-Max-Previewは推論モデルであり、単純に次のトークンを生成するだけでなく、回答前に問題を段階的に処理する設計です。

このタイプのモデルは、次のようなタスクに向いています。

複雑なコード生成
既存コードのリファクタリング
多段階の数学・論理問題
長いドキュメントの横断的な分析
ツール呼び出しを含むエージェントワークフロー

一方で、推論モデルは通常のチャットモデルよりもトークン使用量とレイテンシが増えます。短い分類、要約、単純な書き換えでは過剰になる可能性があります。

Qwen3.7-Max-Previewは、2026年5月14日頃にLM Arenaのテキストリーダーボードへ先に登場し、正式発表は5月20日のAlibaba Cloud Summitで行われました。AlibabaのAPIプラットフォームには5月19日に投入されています。そのため、現時点で利用できるモデル名には「Preview」が付いています。

Qwen 3.7のバリアント

現時点では、確認済み情報と未確認情報を分けて扱う必要があります。

確認済み

Qwen3.7-Max-Preview
- 実在するモデルです。
- Alibabaが発表したフラッグシップ推論モデルです。
- クローズドウェイトで提供されています。
- Alibaba Cloud API経由で順次利用可能になっています。

未確認

Qwen 3.7 Plus
- 過去のQwen世代ではMaxとPlusが並行して提供されることがありました。
- ただし、2026年5月中旬時点でQwen3.7-Plusは正式発表されていません。
オープンウェイト版Qwen 3.7
- Alibabaは過去世代で一部の中規模モデルをオープンウェイトとして提供してきました。
- しかし、2026年5月中旬時点でQwen 3.7のウェイトはQwenLM GitHubやHugging Faceで確認されていません。

実装上の判断としては、現時点で「Qwen 3.7」と言う場合、ほぼQwen3.7-Max-Previewを指すと考えるのが安全です。

100万トークンのコンテキストウィンドウ

Artificial Analysisによると、Qwen3.7-Max-Previewは100万トークンのコンテキストウィンドウを備えています。

これは、1回のリクエストでモデルが参照できる情報量を意味します。コンテキストには次が含まれます。

システムプロンプト
ユーザープロンプト
会話履歴
貼り付けたドキュメント
コード
モデルの生成出力

100万トークンは、英語ではおよそ70万〜75万語に相当します。実用上は、次のような入力を1回のリクエストに含められる可能性があります。

中規模コードリポジトリ
複数の長いPDF相当のテキスト
長期間のチャット履歴
大量の仕様書や設計メモ

ただし、実装時には次の2点に注意してください。

コンテキスト上限は品質保証ではない
- ウィンドウが大きいほど、常に正確に検索・推論できるとは限りません。
- 長コンテキストでの独立検証はまだ十分ではありません。
大きなコンテキストは高コスト
- APIでは入力トークンも課金対象になります。
- 100万トークンを毎回送る設計は、コスト面で現実的でない場合があります。

実装では、まず以下のような方針を取るのが安全です。

1. 必要なドキュメントだけを抽出する
2. 大きな入力は要約または検索で絞り込む
3. 本当に必要な場合だけ長コンテキストを使う
4. 入力トークン数をログに残す
5. モデル呼び出し単位でコストを監視する

推論と拡張思考モード

Qwen3.7-Max-Previewは推論モデルです。難しい問題を与えると、モデルは回答前に内部的な思考ステップを生成します。

Qwen ChatのようなUIでは、「Thinking」モードとして表示される場合があります。これは、モデルが計画、検証、修正を行いながら回答を組み立てる動作です。

この設計は、次のようなタスクで有効です。

複雑なバグ調査
複数ファイルにまたがるコード変更
長い仕様からの実装計画作成
ツール呼び出しを含むエージェント処理
論理的な検証が必要な回答

一方で、推論モデルはトークンを多く消費します。Artificial Analysisの評価では、Qwen3.7-Maxは約9700万トークンを生成したと報告されています。これは同ベンチマークにおけるモデル平均の約2400万トークンを大きく上回ります。

つまり、実装時にはタスクごとにモデルの使い分けが必要です。

単純な分類      -> 軽量モデルまたは短いプロンプト
短い文章生成    -> 推論なしの通常モード
コード修正      -> Qwen3.7-Maxのような推論モデル
長期エージェント -> 推論モデル + ツール実行ログ

テストを書く場合は、思考過程の文言ではなく、最終回答を検証対象にするべきです。推論出力は長く、毎回変動しやすいためです。

モデル呼び出しの検査やレスポンス確認の流れは、Qwen 3.7 APIの使用方法に関するガイドで詳しく扱われています。

Qwen 3.7のベンチマーク

ベンチマークは参考になりますが、実装判断では過信しない方が安全です。特にプレビューモデルは正式版までに挙動が変わる可能性があります。

Artificial Analysis Intelligence Index

Artificial Analysis Intelligence Indexは、推論、知識、数学、コーディングなどを統合した複合スコアです。

Artificial Analysisによると、Qwen3.7-Maxはこのインデックスで57点を獲得しました。これは、以前のQwen 3.6 Max Previewの52点から5ポイント上昇した結果であり、公開リーダーボード上の218モデル中1位として報告されました。

ただし、このスコアは推論能力を強く反映します。Qwen 3.7は推論トークンを多く使うため、コストや速度も同時に評価する必要があります。

LM Arena テキストEloスコア

LM Arenaは、人間の好みに基づいてモデルを比較するリーダーボードです。ユーザーが2つの匿名モデルの回答を比較し、良い方に投票します。その結果がEloレーティングとして反映されます。

Qwen3.7-Max-Previewは、報道によるとLM Arenaのテキストリーダーボードで約1,475 Eloを記録し、全体で約13位に位置しました。数学やコーディングなど一部カテゴリでは、より高い順位に入っています。

Artificial AnalysisとLM Arenaは測っているものが異なります。

指標	測るもの
Artificial Analysis Intelligence Index	タスク正解率、推論、数学、コードなど
LM Arena Elo	人間が好む回答品質

そのため、あるモデルが一方で1位でも、もう一方で圧倒的とは限りません。

エージェント性能に関する主張

Alibabaは、Qwen3.7-Maxが長時間のエージェント実行に強いと説明しています。発表では、最大35時間の自律的なタスク実行や、1回の実行で1,000回以上のツール呼び出しを処理したとされています。

ただし、これらはAlibaba自身の主張です。第三者検証が増えるまでは、ベンダー発表として扱うのが妥当です。

実装で確認すべきポイントは次の通りです。

- 長時間実行で状態を維持できるか
- ツール呼び出しの失敗時に復旧できるか
- 同じタスクで結果が安定するか
- コストが許容範囲か
- タイムアウトやレート制限に耐えられるか

Qwen 3.7とGPT-5.5、Claude Opus 4.7、Gemini 3.5の比較

以下は、現在のフロンティアモデルとの比較です。未確認または非公開の値は明示的に扱います。

仕様	Qwen3.7-Max-Preview	GPT-5.5	Claude Opus 4.7	Gemini 3.5
ベンダー	Alibaba / Qwen	OpenAI	Anthropic	Google DeepMind
タイプ	推論モデル	推論モデル	推論モデル	推論モデル
コンテキストウィンドウ	1Mトークン	約1Mトークン	約1Mトークン、報告範囲	約1M+トークン
ウェイト	プロプライエタリ	プロプライエタリ	プロプライエタリ	プロプライエタリ
AA Intelligence Index	57、報告1位	ここには未記載	ここには未記載	ここには未記載
リリース段階	プレビュー	安定版	安定版	安定版
推論 / 思考モード	あり	あり	あり	あり
主な強み	長時間エージェントタスク	自律型エージェント、ツール利用	本番品質のコード	長コンテキスト、費用対効果

Qwen3.7-Maxは、Artificial Analysis Intelligence Indexでは非常に強い結果を示しています。ただし、モデル選定では単一ベンチマークではなく、以下を確認する必要があります。

APIアクセスの安定性
レート制限
レイテンシ
トークン単価
ツール呼び出しの扱いやすさ
自社データでの精度
本番運用時の監視しやすさ

一般的な位置づけとしては、Claude Opus 4.7は本番コード生成、GPT-5.5は自律型エージェントやコンピュータ使用、Gemini 3.5は長コンテキストと費用対効果で語られることが多いです。Qwen 3.7は、エージェント性能とコスト競争力の領域に近いモデルです。

より詳しい比較は、Qwen 3.7 vs GPT-5.5 vs Opus 4.7で確認できます。Googleのモデルを検討している場合は、Gemini 3.5とは何かとGemini 3.5 vs GPT-5.5 vs Opus 4.7も参考になります。中国系モデルを比較する場合は、ERNIE 5.1とは何かも確認できます。

今日Qwen 3.7にアクセスする方法

2026年5月中旬時点で、現実的なアクセス方法は次の通りです。

1. Qwen Chatで試す

最も簡単な方法は、公式チャットUIであるchat.qwen.aiを使うことです。

用途は次の通りです。

モデルの回答傾向を確認する
Thinkingモードを試す
コード生成や要約の品質を見る
API実装前にプロンプトを試す

本番統合前の検証として使うのに向いています。

2. Alibaba Cloud APIを使う

Qwen3.7-Maxは2026年5月19日にAlibabaのAPIプラットフォームへ登場しました。AlibabaはAPIアクセスを順次展開中と説明しています。

実装前に確認すべき項目は次の通りです。

- 正確なモデル名
- エンドポイントURL
- 認証方式
- 入力 / 出力フォーマット
- Thinkingモードの制御方法
- 最大コンテキスト長
- 料金
- レート制限
- タイムアウト

API統合では、最初に小さなリクエストで接続を確認し、その後に実アプリのユースケースへ広げるのが安全です。

# 疑似例: 実際のエンドポイント名と認証方式はAlibaba Cloudの最新ドキュメントを確認してください
curl -X POST "https://example-endpoint/v1/chat/completions" \
  -H "Authorization: Bearer $ALIBABA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.7-max-preview",
    "messages": [
      {
        "role": "system",
        "content": "あなたはコードレビューを支援するアシスタントです。"
      },
      {
        "role": "user",
        "content": "この関数のバグを指摘してください。"
      }
    ]
  }'

具体的な接続手順や推論出力の扱いは、Qwen 3.7 APIの使用方法で確認できます。

3. オープンウェイトはまだ使えない

セルフホストを前提にしている場合、現時点での答えは「まだ」です。

2026年5月中旬時点で、Qwen 3.7のオープンウェイトは公開されていません。Alibabaが過去のパターンに従う場合、将来的に中規模ティアのウェイトが提供される可能性はあります。ただし、公式発表までは未確定です。

無料または低価格で利用する方法が登場した場合は、Qwen 3.7を無料で使う方法で追跡されます。

実装時のチェックリスト

Qwen 3.7をアプリに組み込む場合、以下を最初に決めておくと実装が安定します。

API設計

- どの機能でQwen 3.7を呼ぶか
- 同期処理か非同期処理か
- 最大入力サイズをいくつにするか
- タイムアウト時にどうするか
- リトライするか
- ユーザーに途中状態を見せるか

プロンプト設計

- system messageで役割を固定する
- 出力形式をJSONなどで明示する
- 長い入力はセクションごとに区切る
- 不要なコンテキストを送らない
- 回答に根拠が必要かを指定する

例：

{
  "role": "system",
  "content": "あなたはAPI設計レビューを行うシニアバックエンドエンジニアです。出力はJSONで返してください。"
}

{
  "role": "user",
  "content": "以下のOpenAPI仕様をレビューし、破壊的変更、命名の問題、レスポンス設計の問題を指摘してください。"
}

レスポンス検証

推論モデルでは、自然文の完全一致テストは壊れやすくなります。代わりに、次のような検証が実用的です。

- JSONとしてパースできるか
- 必須キーが存在するか
- ステータスが期待値か
- エラー時のフォールバックが動くか
- 出力が最大文字数を超えていないか

モック

開発初期は、実モデルを毎回呼ぶ必要はありません。固定レスポンスをモックして、UIやバックエンドの連携を先に作れます。

{
  "summary": "API仕様には認証エラー時のレスポンス定義が不足しています。",
  "issues": [
    {
      "severity": "high",
      "message": "401レスポンスのスキーマが未定義です。"
    },
    {
      "severity": "medium",
      "message": "GET /users のページネーション仕様が曖昧です。"
    }
  ]
}

このようなリクエスト設計、モック、テスト、レスポンス検査にはApidogのようなAPI開発プラットフォームが役立ちます。Apidogをダウンロードして、Qwen 3.7用のリクエストコレクションを作成できます。

結論

Qwen 3.7は、Alibaba Qwenによる重要なフロンティアモデルです。特にQwen3.7-Max-Previewは、長いコンテキスト、推論、エージェント実行を重視する開発者にとって注目すべきモデルです。

要点は次の通りです。

Qwen3.7-Max-PreviewはAlibabaの最新フラッグシップモデルです。
1Mトークンのコンテキストウィンドウと拡張思考モードを備えています。
Artificial Analysis Intelligence Indexで57点を獲得し、公開リーダーボードで1位と報告されました。
LM Arenaテキストでは約1,475 Eloを記録しました。
セールスポイントは、長時間のエージェント実行、ツール利用、コード処理です。
2026年5月中旬時点ではプレビュー版のみで、クローズドウェイトです。
Qwen 3.7のオープンウェイトはまだ公開されていません。
未確認のバリアント、サイズ、リリース日は公式発表まで憶測として扱うべきです。

Qwen 3.7を本番候補に入れるなら、次のステップは実際のAPI統合です。Apidogを使えば、APIリクエストの設計、モデルレスポンスのモック、自動テスト、ライブエンドポイントの検証をまとめて行えます。ベンチマークを見るだけでなく、実際のアプリケーションで動作を確認しましょう。

DEV Community