過去33日間で、3つのフロンティアクラスのリリースが出そろいました。AnthropicのClaude Opus 4.7は4月16日に登場し、OpenAIのGPT-5.5が4月23日に続き、GoogleのGemini 3.5 Flashは5月19日に出荷されました。Gemini 3.5 Proは6月に登場予定です。
最初に整理しておくべき点があります。これは同じ価格帯の比較ではありません。Opus 4.7とGPT-5.5はフラッグシップ価格のフラッグシップモデルです。一方、Gemini 3.5 FlashはGoogleの高速・低コスト版です。実装上の問いは、「Flashが最高か」ではなく、「トークンあたり5〜10倍高価なモデルを使う必要があるワークロードはどれか」です。
結論から言うと、Flashは価格帯を大きく超える性能を出します。コスト、速度、長文コンテキスト、いくつかのエージェント系ベンチマークでは非常に強いです。一方で、最難関のコード修正や長文執筆品質ではOpus 4.7やGPT-5.5が有利です。したがって、実装では「1つの勝者」を決めるより、タスクごとにモデルをルーティングするのが現実的です。
30秒でわかる選び方
| 質問 | 最適解 |
|---|---|
| 最も安価な本番エージェントループ | Gemini 3.5 Flash |
| SWE-Bench Verifiedのバグ修正で最高スコア | Opus 4.7 |
| 大規模利用で最もトークン効率が良い | GPT-5.5 |
| 1Mトークン級の長文コンテキスト検索 | Gemini 3.5 Flash |
| グラフとドキュメント理解 | Gemini 3.5 Flash |
| 長時間CLIエージェント | GPT-5.5、Terminal-Bench 2.0 |
| 複数ステップ指示追従 | Opus 4.7 |
| 最速のトークン出力 | Gemini 3.5 Flash、他モデルの約4倍 |
| レポジトリ全体のコードリファクタリング | Opus 4.7 |
単一の勝者はいません。実装では、次のようにワークロード単位で選びます。
- 低コストで大量に回す: Gemini 3.5 Flash
- CLIエージェントやトークン効率重視: GPT-5.5
- 複雑なコード変更や長文品質重視: Opus 4.7
リリーススケジュール
3つのモデルは近い時期に出荷されましたが、狙っているポジションが異なります。
- Opus 4.7: 2026年4月16日。Anthropicのフラッグシップ推論モデル。コードと拡張された複数ステップ作業に最適化。フラッグシップティア。
- GPT-5.5: 2026年4月23日。GPT-4.5以来、OpenAI初の完全再学習されたベースモデル。エージェント効率とトークンコスト削減に焦点。フラッグシップティア。
- Gemini 3.5 Flash: 2026年5月19日。Google 3.5ファミリーの高速バリアント。低コスト・高速なエージェント実行に焦点。ミッドティア。Gemini 3.5 Proは2026年6月に出荷予定。
コーディングツール観点の比較は、Cursor Composer 2.5 vs Opus 4.7 vs GPT-5.5も参考になります。前世代との比較はGemini 3.1 Pro vs Opus 4.6 vs GPT-5.3を参照してください。
価格比較
ティアの違いが最もはっきり出るのが価格です。
| モデル | 入力、$/1M | 出力、$/1M | 備考 |
|---|---|---|---|
| Gemini 3.5 Flash | 約$1.50 | 約$9.00 | 無料ティアあり |
| GPT-5.5 | 約$10 | 約$30 | キャッシュ入力はより安価 |
| Claude Opus 4.7 | 約$15 | 約$75 | 最高価格帯 |
トークンあたりでは、Flashは入力で6〜10倍、出力で3〜8倍安価です。バッチモードやVertex AIを含む詳細はGemini 3.5 Flashの価格詳細を参照してください。GPT-5.5についてはGPT-5.5の価格にまとまっています。
実装時は「1リクエストの価格」ではなく、「1タスクの完了コスト」で見るべきです。エージェントワークロードでは、1タスクあたり数十〜数百回モデルを呼び出すことがあります。この場合、モデル単価の差はそのままインフラコスト差になります。
ただし、トークン効率も重要です。GPT-5.5は同じタスクに対して出力トークンが明らかに少ない場合があり、時にはOpus 4.7より72%少ないことがあります。つまり、トークン単価が高くても、タスク単位では差が縮まるケースがあります。
簡単な判断基準は次の通りです。
大量・反復・低単価が重要 -> Gemini 3.5 Flash
出力トークンを絞りたい -> GPT-5.5
品質最優先でコスト許容 -> Opus 4.7
コーディングベンチマーク
コーディングは、3モデルの差が最も出やすい領域です。
SWE-Bench Verified: 単一問題のバグ修正
| モデル | スコア |
|---|---|
| Opus 4.7 | 87.6% |
| GPT-5.5 | 約85% |
| Gemini 3.5 Flash | 個別報告なし |
Opus 4.7は、単一バグ修正ベンチマークで依然としてリードしています。GPT-5.5との差は数ポイントで、ほとんどのワンショットのコード修正では両者とも実用的です。
Flashは比較可能な公式数値を公表していません。非公式テストでは、純粋なSWE-Bench Verifiedでは両フラッグシップを下回る傾向があります。これは高速・低コストティアとしては自然な結果です。
実装上は、次のように使い分けると安全です。
小さな修正、テスト生成、コード説明 -> Flash
本番バグ修正、複雑な推論が必要な修正 -> GPT-5.5 または Opus 4.7
失敗時の再試行先 -> Opus 4.7
SWE-Bench Pro: 複数ファイルにわたる複雑な修正
| モデル | スコア |
|---|---|
| Opus 4.7 | 64.3% |
| GPT-5.5 | 58.6% |
| Gemini 3.5 Flash | 個別報告なし |
複数ファイルのリファクタリングはOpus 4.7が最も得意とする領域です。Cursor ComposerやClaude Codeでリポジトリ全体にわたる変更を行う場合、Opus 4.7がより安全な選択肢になります。
一方、日常的な変更や軽いコードレビュー、テストケース生成であれば、Flashでも十分なケースが多く、コストを大きく抑えられます。
Terminal-Bench 2.0/2.1: CLIエージェントループ
| モデル | スコア | ベンチマーク |
|---|---|---|
| GPT-5.5 | 82.7% | Terminal-Bench 2.0 |
| Gemini 3.5 Flash | 76.2% | Terminal-Bench 2.1 |
| Opus 4.7 | 69.4% | Terminal-Bench 2.0 |
Terminal-Bench 2.0と2.1は異なるタスクミックスのスコアボードです。直接の横並び比較には注意が必要ですが、傾向として、FlashとGPT-5.5は長時間のCLIエージェント実行で強いです。
CLIエージェントでは、モデルが次のループを何度も実行します。
状態を読む
-> コマンドを決める
-> 実行結果を見る
-> 次のアクションを決める
-> 完了判定する
このようなループでは、1回あたりの品質だけでなく、速度、出力の簡潔さ、ツール呼び出しの安定性が効いてきます。GPT-5.5はトークン効率で有利です。Flashは低コストと高速出力で有利です。
MCP Atlas: マルチツール連携
Gemini 3.5 FlashはMCP Atlasで83.6%を記録しています。これはGoogleがエージェント的なツール使用の主要指標としているベンチマークです。
OpenAIとAnthropicは同じベンチマークで比較可能な数値を公開していないため、直接比較は困難です。ただし、2026年時点では3モデルともツール呼び出しワークロードで十分に実用的です。
実装時は、モデル性能だけでなく、次の失敗モードをテストしてください。
- 関数名を間違える
- 必須引数を落とす
- JSONスキーマから外れる
- 同じツールを無限に呼び続ける
- エラー後に回復できない
エージェント的および長期的な作業
監視なしで数十分から数時間動くタスクでは、品質だけでなく運用コストが重要です。
Gemini 3.5 Flash
タスクあたりの価格と出力速度で有利です。MCP Atlas 83.6%、Terminal-Bench 2.1 76.2%は、ツール使用挙動の安定性を示しています。サブエージェントのディスパッチ用途にも向いています。GPT-5.5
Terminal-Bench 2.0 82.7%とトークン効率で有利です。出力トークンが少ないため、コスト超過やノイズの増加を抑えやすいです。Opus 4.7
複数ステップの指示追従とコード品質で有利です。ただし、出力が長くなりやすいため、非常に長い実行では速度と価格の面で不利になります。
CodexとClaude Codeによる/goalコマンドパターンのように継続的なエージェントを動かす場合、経済性は無視できません。
実装パターンとしては、次のようなルーティングが現実的です。
if task.type in ["search", "summarize", "doc_extract"]:
model = "gemini-3.5-flash"
elif task.type in ["cli_agent", "tool_loop"]:
model = "gpt-5.5"
elif task.type in ["repo_refactor", "complex_code_change"]:
model = "opus-4.7"
else:
model = "gemini-3.5-flash"
コンテキストウィンドウと長文コンテキスト検索
| モデル | 最大入力 | 最大出力 |
|---|---|---|
| Gemini 3.5 Flash | 1Mトークン | 64Kトークン |
| GPT-5.5 | 400Kトークン | 128Kトークン |
| Opus 4.7 | 1Mトークン、ベータ版 | 64Kトークン |
Flashは、Googleが公開している1MトークンのMRCR v2検索ベンチマークでリードしています。これは、チャンキング戦略なしで「200ページPDFの中から正しい答えを探す」ような用途に向いています。
Opus 4.7もウィンドウサイズでは同等ですが、高負荷時の検索一貫性ではFlashが有利です。GPT-5.5の400Kも十分に大きいですが、純粋な入力規模ではFlashに劣ります。
ドキュメントを多用するワークフローでは、Flashをデフォルトにし、失敗時だけフラッグシップへフォールバックする構成が使いやすいです。
例:
1. PDF、仕様書、ログ、コードベースをFlashに投入
2. 必要箇所の抽出、要約、候補生成を行う
3. 重要な最終判断だけGPT-5.5またはOpus 4.7に渡す
マルチモーダル
Flashはグラフとドキュメント推論で強いです。
- CharXiv Reasoning: 84.2%、Gemini 3.5 Flash
- MMMU-Pro: 83.6%、Gemini 3.5 Flash
OpenAIとAnthropicもフラッグシップモデルで画像入力をサポートしていますが、ローンチ時点でのFlashのグラフ推論スコアには及んでいません。
次のようなワークロードではFlashを優先しやすいです。
- PDFからの情報抽出
- グラフや表の読み取り
- スクリーンショットを含むバグ報告の解析
- テキストと画像を組み合わせたQA
- ドキュメントレビューの自動化
画像生成をパイプラインに組み込む場合は、Gemini 3 Pro Image vs Seedreamの比較も参考になります。
出力速度
ユーザーがストリーミング出力を待つUIでは、1秒あたりのトークン数が体感品質に直結します。
| モデル | 相対出力速度 |
|---|---|
| Gemini 3.5 Flash | ベースラインの約4倍 |
| GPT-5.5 | ベースライン |
| Opus 4.7 | ベースラインの約0.7倍 |
数値は地域や負荷によって変動しますが、傾向は一貫しています。Flashは両フラッグシップより明らかに速くストリーミングします。
チャットUIやライブコーディングアシスタントでは、多少の品質差よりも「すぐ返ってくる」ことが重要な場合があります。その場合、Flashをデフォルトにして、ユーザーが明示的に高品質モードを選んだときだけGPT-5.5やOpus 4.7に切り替える設計が有効です。
推論、数学、科学
| ベンチマーク | Flash | GPT-5.5 | Opus 4.7 |
|---|---|---|---|
| GPQA Diamond | 強力、Googleの表より | 高 | 高 |
| 数学的推論 | 強力 | 強力 | 強力 |
| 長文執筆 | 良い | 良い | 最高 |
この領域では上位モデルが拮抗しています。Flashは高速ティアにもかかわらず十分な性能を出します。Opus 4.7は依然として長文で慎重な文章生成に強いです。GPT-5.5は推論能力とトークン効率のバランスが良いです。
実装上は、出力物の性質で選びます。
計算補助、短い推論、分類 -> Flash
長い推論チェーンを低ノイズで -> GPT-5.5
顧客向け長文、慎重な文章 -> Opus 4.7
ツールエコシステムと統合
Opus 4.7
Claude Code、MCP、Anthropic API、成熟したツールエコシステム、Bitwarden Agent、幅広いIDEサポート。GPT-5.5
OpenAI Codex、Responses API、ChatGPTアプリ統合。関数呼び出しは長い実績があります。Gemini 3.5 Flash
Antigravity、Gemini Enterprise Agent Platform、Gemini CLI、Android Studio統合。急速に成長中。
Anthropicはサードパーティアダプターの深さがあります。OpenAIは開発者採用の広さがあります。GoogleはAntigravityとAgent Platformで追いついていますが、サードパーティ基盤はまだ成長途中です。
どのモデルを選択すべきか
ベンチマークよりも、実際のワークロードで選ぶべきです。
Gemini 3.5 Flashを選ぶ場合
- タスクごとの予算が厳しい
- ストリーミングUIの応答速度が重要
- 1Mトークン級の長文ドキュメントを処理する
- グラフ、PDF、スクリーンショットを扱う
- 低価格で信頼できるエージェントループを作りたい
- すでにGoogle CloudまたはWorkspaceを使っている
- 大量処理で「最高品質」より「十分な品質」が重要
GPT-5.5を選ぶ場合
- トークン効率が最優先
- CLI駆動のエージェント作業が中心
- Terminal-Bench系のような長時間ループを重視する
- 幅広いサードパーティツールアダプターを使いたい
- チームのワークフローにChatGPTがすでに組み込まれている
- セットアップ手順はGPT-5.5 APIの利用方法を参照してください
Opus 4.7を選ぶ場合
- 複数ファイルのコードリファクタリングが中心
- リポジトリ全体にわたる変更がある
- 複数ステップの指示追従品質が速度より重要
- 長文執筆や慎重な物語調の出力が成果物
- すでにClaudeプランでClaude Codeを使っている
- タスクあたりのコストが主要な制約ではない
ブレンドして選ぶ場合
本番環境では、1つのモデルに固定するより、2つ以上を組み合わせる方が現実的です。
よくある構成は次の通りです。
検索と準備にFlash、最終コミットにOpus
安価なモデルでコンテキスト収集を行い、高価なモデルには整理済み入力だけを渡します。CLIエージェントにGPT-5.5、グラフ/ドキュメント分析にFlash
それぞれの得意領域に分担します。トラフィックの80%にFlash、難しい20%にOpusまたはGPT-5.5
タスク複雑度に応じてルーティングします。3モデルを薄いルーターの背後に置く
タスクタイプ、予算、レイテンシ、失敗回数で動的に選択します。
シンプルなルーター例:
function selectModel(task) {
if (task.requiresRepoWideRefactor) return "opus-4.7";
if (task.isCliAgentLoop) return "gpt-5.5";
if (task.hasLargeDocs || task.hasImages) return "gemini-3.5-flash";
if (task.latencySensitive) return "gemini-3.5-flash";
return "gemini-3.5-flash";
}
無料ティアの比較
3つすべてに無料利用の経路があります。
Gemini 3.5 Flash
AI Studio APIキー、1日あたり約1,500リクエスト。Flash無料ガイドを参照してください。GPT-5.5
ChatGPTでの無料クエリは制限付きです。GPT-5.5無料ガイドで紹介されているゲートウェイも利用できます。Opus 4.7
Claude.aiのデイリー制限に加えて、Opus 4.7無料ガイドで紹介されている方法があります。
3つの中では、Flashの無料API利用経路が最も開発者フレンドリーです。AI Studioでは、クレジットカードなしで動作するキーと、実用的なデイリークォータが提供されます。
自分のワークロードで3モデルをテストする方法
ベンチマークは平均的な傾向を示します。実際に重要なのは、あなたのプロンプト、データ、ツール、失敗条件です。
小さな評価ハーネスを作りましょう。
- 実際のユースケースから代表的なタスクを20個選ぶ
- 各タスクに対して3モデルすべてを実行する
- タスク成功、総コスト、レイテンシを記録する
-
失敗モードを記録する
- 拒否
- JSONスキーマの崩れ
- ツール呼び出し引数の変化
- 幻覚
- 途中停止
- 出力過多
ここでApidogが役立ちます。Gemini、OpenAI、Anthropicの3つのAPIエンドポイントをパラメータ化されたリクエストとして保存し、APIキーを環境変数に入れ、同じプロンプトを3モデルに対して実行できます。応答はApidogのテストフレームワークに戻され、並べて比較できます。
具体的な設定手順です。
- Apidogをダウンロード
-
Frontier Model Evalという名前のワークスペースを作成する
- プロバイダーごとに1つずつ、3つのリクエストを保存する
- Gemini 3.5 Flash
- GPT-5.5
- Opus 4.7
- 同じプロンプトを3つすべてに送るテストシナリオを作る
- 応答アサーションを追加する
- JSON形式
- 必須フィールド
- 必須文字列
- レイテンシ閾値
- モデルドリフトを検出するために、シナリオを毎週実行する
評価用の最小チェックリストは次のようになります。
[ ] 同じ入力を3モデルに送ったか
[ ] 成功/失敗を人間が確認したか
[ ] レイテンシを記録したか
[ ] 入出力トークンを記録したか
[ ] 総コストを計算したか
[ ] JSONスキーマの安定性を確認したか
[ ] 失敗時のフォールバック先を決めたか
「どのモデルが良い感じか」を3か月議論するより、2日で評価ハーネスを作る方が有効です。
次に何が変わるか
今後90日間で注目すべき点は3つです。
Gemini 3.5 Pro GA
6月にPro版が登場すれば、比較は変わります。Flashはコストと速度の面で有利を保ちますが、ProはOpus 4.7とGPT-5.5に対する直接的なフラッグシップ競合になります。OpenAIの反応
GPT-5.5は4月リリースです。Gemini 3.5 Proが強力に登場すれば、中間サイクルのアップデートや新しいバリアントが登場する可能性があります。Anthropicの次の動き
Opus 4.7は現在のAnthropicのフラッグシップです。次四半期にSonnet更新またはOpus 4.8が登場すれば、自然な流れです。
この領域は毎月変化しています。実装上の正解は、評価ハーネスを常に動かし、数値が変わったらルーティングを変更し、単一プロバイダーに固定しないことです。
FAQ
Gemini 3.5 Flashは本当にOpus 4.7やGPT-5.5と競争力がありますか?
はい、その価格帯では非常に競争力があります。Flashはエージェントベンチマークでクラスを超える性能を示し、コスト面で大きく有利です。ただし、複雑な複数ファイルリファクタリングや慎重な長文執筆では、フラッグシップモデルが依然としてリードしています。
なぜ高速ティアモデルをフラッグシップと比較するのですか?
コスト差が非常に大きいからです。フラッグシップが少し良い結果を出しても、本番ワークロードではFlashの方が合理的な場合があります。重要な問いは「Flashはこのワークロードに十分か」です。
Opus 4.7は高い価格に見合いますか?
コードや文章のターンごとの品質が最重要なら見合います。大量のエージェントループでは、タスクあたりのコストでFlashが有利になりやすいです。
3モデルすべてを1つのAPIで使えますか?
直接はできません。各プロバイダーは独自のエンドポイントを持っています。OpenAI互換モードをサポートする経路もありますが、認証情報は分けて管理する必要があります。最もクリーンなのは、モデル呼び出しを自前の薄いラッパーで抽象化することです。
Gemini 3.5 Proはいつ出荷されますか?
2026年6月です。Opus 4.7とGPT-5.5に対するフラッグシップティアの競合になります。それまでは、3.5ファミリーではFlashが主要な選択肢です。
3プロバイダーを使う場合、コストはどう監視すべきですか?
Apidogのリクエスト履歴でモデルごとの利用状況を追跡するか、各プロバイダーのダッシュボードを集計してください。テスト中の予期しない請求を避けるため、モデルごとに予算アラートを設定するべきです。
結論
3つのモデルはいずれも本番利用に値します。ただし、得意分野は異なります。
Gemini 3.5 Flash
安価、高速、マルチモーダル、長文コンテキストに強く、かつてフラッグシップが必要だった多くのエージェントワークロードを処理できます。GPT-5.5
トークン効率が高く、CLIを多用するエージェント自動化に向いています。Opus 4.7
高品質なコードリファクタリングと長文執筆に向いています。
実装でやるべきことはシンプルです。
- 自分の評価セットを作る
- 実ワークロードで3モデルを比較する
- 成功率、コスト、レイテンシを測る
- タスクごとにルーティングする
- モデル更新に合わせて定期的に再評価する
リーダーが毎月変わる市場では、固定された「最強モデル」を探すより、切り替え可能な評価・ルーティング基盤を持つ方が強いです。6月のGemini 3.5 Pro登場で、この比較はさらに変わる可能性があります。


Top comments (0)