Akira

Posted on May 21 • Originally published at apidog.com

Qwen 3.7 vs GPT-5.5 vs Opus 4.7：2026年比較

3つのラボが5週間以内に主力モデルを発表し、リーダーボードは大きく動きました。AlibabaのQwen3.7-Max-Preview、OpenAIのGPT-5.5、AnthropicのClaude Opus 4.7はいずれも主要ベンチマーク上位にいます。ただし、「Qwen3.7-MaxがArtificial Analysis Intelligence Indexで1位」という見出しだけでは、開発でどのモデルを選ぶべきかは判断できません。

今すぐApidogを試す

この記事では、推論、コーディング、コンテキストウィンドウ、価格、可用性、レイテンシーを開発者目線で比較します。最終的な選定では、同じプロンプトを3モデルに投げ、応答品質、トークン使用量、レイテンシーを並べて測るのが最短です。Apidogを使えば、3つのモデルAPIを1つのワークスペースで並列に実行し、実際のワークロードに近い条件で比較できます。

TL;DR

ベンチマーク知能重視: GPT-5.5。Artificial Analysis Intelligence Indexで60。
人間が好む応答品質重視: Claude Opus 4.7。LM Arena Text Eloで3モデル中トップ。
大規模コードベースの実装・リファクタリング重視: Claude Opus 4.7。SWE-bench Proで優勢。
ターミナル自動化・エージェント実行重視: GPT-5.5。SWE-bench VerifiedとTerminal-Bench系で強い。
コストと1Mトークンコンテキスト重視: Qwen3.7-Max-Preview。ただし現時点ではプレビューで、本番APIとしてはまだ扱いに注意が必要。

結論として、GPT-5.5とClaude Opus 4.7はすぐ本番候補にできます。Qwen3.7-Max-Previewは有望ですが、現時点では評価・ロードマップ検討向けです。

3つのモデルを概観

まず、スコアを見る前にリリース状態を確認します。モデルの可用性が違うと、ベンチマークの意味も変わります。

Qwen3.7-Max-Preview

Qwen3.7-Maxは、Alibabaの主力推論モデルです。2026年5月中旬にプレビューされ、Alibaba Cloud Summitで発表されました。

特徴は次の通りです。

拡張思考を使用
1.0Mトークンのコンテキストウィンドウ
エージェントコーディング、ツール使用、長文コンテキスト推論を重視
2026年5月下旬時点では公開APIエンドポイントなし
オープンウェイトなし
Alibaba Cloud Model StudioおよびQwen Studio経由でアクセス

注意点は「Preview」です。Alibabaは、Qwen3.7-Plusはオープンソースとして出荷される一方、Qwen3.7-Maxはプロプライエタリのままと説明しています。オープン性を重視する場合、この違いは選定条件に入れるべきです。

GPT-5.5

GPT-5.5はOpenAIのエージェント向け推論モデルで、2026年4月23日にリリースされました。Claude Opus 4.7への直接的な対抗モデルとして、ターミナル操作、ブラウザタスク、ツール呼び出しなどの自律ワークフローに重点を置いています。

実装面で重要なポイントは次の通りです。

OpenAI APIから一般利用可能
APIでは1Mトークンのコンテキストウィンドウ
Codex内では400Kトークンが上限
Artificial Analysisの公開値ではxhighバリアントが使われている

Claude Opus 4.7

Claude Opus 4.7はAnthropicの現在の主力モデルで、2026年4月16日にOpus 4.6の直接アップグレードとしてリリースされました。

特に大規模コードベースを扱う高度なソフトウェアエンジニアリング向けに位置付けられています。

適応推論を使用
1.0Mトークンのコンテキストウィンドウ
Anthropic API、Amazon Bedrock、Google Vertex AIで一般利用可能
3モデルの中でクラウド経由の選択肢が広い
独立した投票データが比較的多い

推論と知能ベンチマーク

「Qwenが1位」という見出しはここから来ています。ただし、実装判断ではスコアの読み方が重要です。

Artificial Analysis Intelligence Index

Artificial Analysis Intelligence Indexは、推論、知識、数学、コーディングを含む10評価の加重平均スコアです。2026年5月下旬時点の数値は次の通りです。

Qwen3.7-Max: 57点、全体リーダーボードで218モデル中1位
GPT-5.5 (xhigh): 60点、3モデル中で最高スコア
Claude Opus 4.7 (max): 57点、追跡クラスで3位

ここで混乱しやすいのは、Qwen3.7-Maxが全体リーダーボードで1位である一方、GPT-5.5がより高い生スコアの60を記録している点です。これはリーダーボードのグルーピングや推論バリアントの扱いによるものです。

実務上は次のように解釈するとよいです。

最高の測定スコア: GPT-5.5
公開リーダーボード上のトップ表示: Qwen3.7-Max
ほぼ同等の上位グループ: Qwen3.7-Max、GPT-5.5、Claude Opus 4.7

Qwenについては、トークン使用量にも注意が必要です。Artificial Analysisは、Qwen3.7-Maxが評価中に97Mの出力トークンを生成したと指摘しています。平均が約26Mであることを考えると、かなり多弁です。これは本番環境ではコストとレイテンシーに直結します。

LM Arena 人間選好度 Elo

固定タスクの正答率だけでは、ユーザーが好む応答かどうかは分かりません。LM Arenaテキストリーダーボードは、人間がブラインド比較でどちらの応答を好むかを測ります。

2026年5月下旬時点の目安は次の通りです。

Claude Opus 4.7: 約1,492 Elo、全体4位、13,000票以上
GPT-5.5: 約1,478 Elo、11位
Qwen3.7-Max-Preview: 約1,475 Elo、14位、4,000票未満で予備評価

ユーザー向けチャット、サポートボット、生成AIアシスタントでは、この指標が重要になります。テストスイートの正答率よりも、実際のユーザーが「読みやすい」「納得できる」と感じる応答品質が評価されるためです。

この観点では、Claude Opus 4.7が最も強い選択肢です。

コーディング能力

3モデルともコーディングを主要ユースケースにしています。ここでは、どの作業に向くかを分けて考えます。

SWE-bench Verified

実際のGitHub issueを解決する標準的な評価であるSWE-bench Verifiedでは、2026年5月時点のSWE-benchリーダーボードトラッキングによると、次の結果です。

GPT-5.5: 88.7%
Claude Opus 4.7: 87.6%
Qwen3.7-Max-Preview: 未公開

GPT-5.5がわずかに上回りますが、差は小さく、どちらも非常に高い水準です。

SWE-bench Pro

より難しい実リポジトリのPull Requestタスクを扱うSWE-bench Proでは、Claude Opus 4.7が約64%、GPT-5.5が約59%です。

この結果から、次のように使い分けるのが実践的です。

GitHub issue解決、CLI操作、ターミナル自動化: GPT-5.5
大規模コードベース、複雑な設計変更、複数ファイルのリファクタリング: Claude Opus 4.7

GPT-5.5はターミナルやシェルワークフローで強く、同等タスクで出力トークンが約72%少ないと報告されています。長いエージェントループでは、これはコスト差として効いてきます。

一方、Claude Opus 4.7は広いコードベース全体を踏まえたアーキテクチャ推論に強い傾向があります。

Qwen3.7-Max-Previewについては、SWE-benchのような標準化されたコーディングベンチマークがまだ公開されていません。LM Arenaのカテゴリではソフトウェア＆ITで9位、コーディングで10位ですが、SWE-benchの代替にはなりません。

IDE統合型のコーディングエージェントを比較している場合は、Cursor Composer 2.5とOpus 4.7、GPT-5.5の比較も参考になります。

コンテキストウィンドウ

長いコンテキストは、リポジトリ全体、巨大なドキュメント、エージェントの長い実行履歴を1回の呼び出しに含められるかを決めます。

Qwen3.7-Max: 1.0Mトークン
Claude Opus 4.7: 1.0Mトークン
GPT-5.5: APIでは1Mトークン、Artificial Analysisでは実効約922K、Codex統合では400K

見出し上は3モデルともほぼ同等です。ただし、実装時には次を確認してください。

API経由か、IDE/Codexなどの統合経由か
実効コンテキスト長がどこまで安定するか
長い入力の後半にある情報を正しく参照できるか

長文コンテキストを使う場合は、単に最大トークン数を見るだけでは不十分です。次のようなテストを行うと実用性を判断しやすくなります。

テスト例:
1. 50万〜100万トークン相当のドキュメントを投入
2. 先頭・中央・末尾に重要情報を配置
3. それぞれの位置にある情報を質問
4. 回答の正確性と引用位置を比較

価格設定

価格比較では、Qwen3.7-Max-PreviewのAPI価格が未発表である点に注意が必要です。

Artificial Analysisによる公開値では、GPT-5.5とClaude Opus 4.7は次の通りです。

モデル	入力価格 / 1M tokens	出力価格 / 1M tokens	キャッシュ入力
GPT-5.5 (xhigh)	$5.00	$30.00	$0.50
Claude Opus 4.7 (max)	$6.25	$25.00	$0.50
Qwen3.7-Max-Preview	未発表	未発表	未発表

GPT-5.5は入力が安く、Claude Opus 4.7は出力が安い構造です。

そのため、選び方はワークロードで変わります。

長いプロンプト + 短い回答: GPT-5.5が有利
短いプロンプト + 長い生成: Claude Opus 4.7が有利
大量処理で価格最優先: Qwen3.7-Maxの正式価格待ち

Qwen3.7-Max-Previewは価格未発表です。参考として、前世代のQwen3.6-Max-PreviewはAlibaba Cloudで入力100万トークンあたり約$1.30、出力100万トークンあたり約$7.80でした。Qwen3.7-Maxが近い価格帯なら非常に安価になりますが、これは確定情報ではありません。

また、Qwenは出力トークンが多くなりやすい可能性があります。トークン単価だけでなく、1リクエストあたりの実測コストを見てください。

コストを評価するときは、以下をログに残すのがおすすめです。

{
  "model": "model-name",
  "input_tokens": 120000,
  "output_tokens": 4500,
  "latency_ms": 38200,
  "retry_count": 0,
  "cache_hit": true,
  "estimated_cost_usd": 0.42
}

トークン費用をさらに削減したい場合は、CLIからエージェントのトークンコストを削減する方法も参考にしてください。

可用性とオープン性

このカテゴリは、本番採用の可否に直結します。

GPT-5.5

OpenAI APIおよびCodexで一般利用可能です。プロプライエタリで重みは非公開ですが、本番環境で使える状態です。
Claude Opus 4.7

Anthropic API、Amazon Bedrock、Google Vertex AIで一般利用可能です。プロプライエタリですが、クラウド選択肢が広く、企業環境に組み込みやすいです。
Qwen3.7-Max-Preview

プレビューのみです。公開APIエンドポイントはなく、オープンウェイトもありません。アクセスはAlibaba Cloud Model StudioおよびQwen Studioに限定されます。AlibabaはPlusティアはオープンソースになるが、Maxは非公開のままと述べています。

今日の本番システムでは、Qwen3.7-Max-Previewはまだ慎重に扱うべきです。評価や将来の選択肢としては有望ですが、安定したAPI運用を前提にした設計には向きません。

現在のアクセス方法は、Qwen 3.7 APIの使用方法で詳しく説明しています。また、APIが安定するまでの間に試す方法として、Qwen 3.7を無料で利用する方法もあります。

レイテンシー

ユーザー向けUIや、複数ステップのエージェントループでは速度が重要です。

Artificial Analysisによると、上位推論ティアでの目安は次の通りです。

Claude Opus 4.7: 初回トークン生成時間約27秒、出力速度約49.4 tok/s
GPT-5.5 (xhigh): 初回トークン生成時間約101秒、出力速度約65.9 tok/s
Qwen3.7-Max: 公開レイテンシーデータなし

実装上の読み方は次の通りです。

チャットUIでは、初回トークンが速いClaude Opus 4.7の方が体感が良い可能性があります。
長文生成では、開始後の出力速度が速いGPT-5.5が有利になる場合があります。
エージェントループでは、1回の遅延よりも「総呼び出し回数 × 平均遅延 × リトライ率」を見てください。

なお、これらは最も高度な推論ティアの数値です。本番では低労力バリアントを使うことも多く、実際のレイテンシーは構成次第で変わります。

完全比較表

項目	Qwen3.7-Max-Preview	GPT-5.5	Claude Opus 4.7
ベンダー	Alibaba	OpenAI	Anthropic
リリース	プレビュー、2026年5月中旬	2026年4月23日	2026年4月16日
AAインテリジェンスインデックス	57 (全体で1位 / 218)	60 (最高スコア)	57 (クラスで3位)
LM Arena テキストElo	約1,475 (14位、予備)	約1,478 (11位)	約1,492 (4位)
SWE-bench Verified	未公開	88.7%	87.6%
SWE-bench Pro	未公開	約59%	約64%
コンテキストウィンドウ	1.0Mトークン	APIで1M / 実効約922K / Codexで400K	1.0Mトークン
入力価格（1Mあたり）	未発表 (Qwen3.6-Max: 約$1.30)	$5.00	$6.25
出力価格（1Mあたり）	未発表 (Qwen3.6-Max: 約$7.80)	$30.00	$25.00
出力速度	未公開	約65.9 tok/s	約49.4 tok/s
初回トークン生成時間	未公開	約101秒 (xhigh)	約27秒
可用性	プレビューのみ (Model Studio / Qwen Studio)	一般提供 (OpenAI API, Codex)	一般提供 (Anthropic API, Bedrock, Vertex)
オープンウェイト	なし (Maxはプロプライエタリ; Plusはオープン予定)	なし	なし
推論モデル	あり (拡張思考)	あり (拡張思考)	あり (適応推論)

情報源はArtificial Analysisモデルページ、LM Arenaテキストリーダーボード、SWE-benchリーダーボードトラッキング、および各ベンダー発表です。すべて2026年5月下旬時点の情報です。ベンチマークやEloは変動するため、引用前にライブボードを確認してください。

実世界のユースケース別の選び方

自律型コーディングエージェント

GitHub issueを解決し、ターミナルコマンドを実行し、長いエージェントループを回すなら、第一候補はGPT-5.5です。

理由は次の通りです。

SWE-bench Verifiedでトップ
ターミナル系ワークフローに強い
出力トークン効率が高く、長いループでコストを抑えやすい

ただし、コードベース全体の設計理解や大きなリファクタリングが中心なら、Claude Opus 4.7も候補に入ります。

大規模レガシーコードベースのリファクタリング

複数ディレクトリ、数百ファイル、既存設計の理解が必要な作業では、Claude Opus 4.7が向いています。

特に次のタスクに適しています。

依存関係の整理
大規模リファクタリング
PR単位の変更計画
レガシーコードの設計把握
影響範囲の説明

SWE-bench Proでの優位性と1Mトークンウィンドウが、この用途に合っています。

長文ドキュメント分析と研究統合

長い契約書、研究論文、議事録、仕様書を扱う場合、3モデルとも約1Mトークンを扱えるため候補になります。

選び方は次の通りです。

要約の読みやすさ重視: Claude Opus 4.7
APIで安定運用したい: GPT-5.5またはClaude Opus 4.7
低コスト評価をしたい: Qwen3.7-Max-Preview

Qwenは価格次第で強力な選択肢になりますが、現時点ではプレビューである点を考慮してください。

顧客対応チャットとアシスタント

ユーザーが出力品質を直接評価する場合、LM Arena Eloが参考になります。この用途ではClaude Opus 4.7が最有力です。

向いている用途は次の通りです。

カスタマーサポート
FAQアシスタント
社内ヘルプデスク
対話型ナレッジ検索
ユーザー向け文章生成

GPT-5.5も強力ですが、初回トークンの遅さがUXに影響する可能性があります。ストリーミングや低労力バリアントの設定で実測してください。

大量かつコストに敏感なワークロード

分類、抽出、バッチ生成など、毎日大量のトークンを処理する場合は価格が最重要です。

実装前に、次のようなサンプルを100〜1,000件程度流して実測するのがおすすめです。

比較する指標:
- 平均入力トークン
- 平均出力トークン
- p50 / p95 レイテンシー
- リトライ率
- エラー率
- 1,000リクエストあたりの推定コスト
- 人手レビューでの合格率

Qwen3.7-Maxが前世代に近い価格で提供されれば有力ですが、正式APIと価格が出るまでは、GPT-5.5とClaude Opus 4.7を実測比較するのが安全です。

ユースケース別のおすすめ

ユースケース	推奨モデル	理由
コーディングエージェント	GPT-5.5	SWE-bench Verified、ターミナル性能、トークン効率
大規模コードベースのリファクタリング	Claude Opus 4.7	SWE-bench Pro、広範なアーキテクチャ推論
ユーザー向けチャット	Claude Opus 4.7	LM Arena人間選好度が高い
生のベンチマーク知能	GPT-5.5	AA Intelligence Indexで60
低コスト長文コンテキスト評価	Qwen3.7-Max-Preview	1Mトークン、低価格の可能性。ただしプレビュー
今日から本番投入	GPT-5.5またはClaude Opus 4.7	一般提供済み

Googleのモデルも含めて比較したい場合は、Gemini 3.5とは何かと、Gemini 3.5 vs GPT-5.5 vs Opus 4.7の直接比較も参考になります。

3つのモデルすべてを自分でテストする方法

ベンチマークは一般的な指標です。実際の選定では、自分のプロンプト、自分のデータ、自分のレイテンシー要件で比較する必要があります。

Apidogを使うと、複数モデルのAPIリクエストを同じワークスペースで管理できます。おすすめの手順は次の通りです。

各モデルのチャットエンドポイント用リクエストを作成する
同じプロンプトと同じ入力データを用意する
レスポンス本文、トークン数、レイテンシーを記録する
生成結果を人手または評価ルールで採点する
リクエストをテストシナリオとして保存する
モデル更新時に同じテストを再実行する

比較時は、次のような評価表を作ると判断しやすくなります。

指標	Qwen3.7-Max	GPT-5.5	Claude Opus 4.7
成功率
平均入力トークン
平均出力トークン
p95レイテンシー
1,000件あたりコスト
人手評価スコア

3つの異なるコンソールやスクリプトを切り替える代わりに、Apidog上で応答を比較し、リクエストを再利用できます。まずはApidogをダウンロードして、最初の複数モデル比較を作成してください。

結論

この3モデルに単一の勝者はありません。選ぶべきモデルは、ワークロードによって変わります。

GPT-5.5は、Artificial Analysis Intelligence Indexで最高スコアの60を記録し、SWE-bench Verifiedでもトップです。トークン効率も高いため、コーディングエージェントやコスト重視の自動化に向いています。
Claude Opus 4.7は、LM Arenaの人間選好度で3モデル中トップであり、SWE-bench Proでも優勢です。大規模コードベースの作業やユーザー向けプロダクトに向いています。
Qwen3.7-Max-Previewは、Artificial Analysisの全体リーダーボードで1位を保持し、1Mトークンウィンドウを備えています。価格面でも有望ですが、現時点ではプレビューであり、本番採用には注意が必要です。
「Qwenが1位」という見出しは正確ですが、全体像ではありません。GPT-5.5はより高い生スコアを持っています。
ベンチマークとEloは変動します。採用前にライブボードと自社ワークロードで再確認してください。

最終判断は、実際のプロンプト、トークン構成、レイテンシー予算で決めるべきです。リーダーボードだけで推測するより、Apidogで3モデルを同じリクエストで比較する方が確実です。

DEV Community