Akira

Posted on May 20 • Originally published at apidog.com

Gemini 3.5 Flash 対 GPT-5.5 対 Opus 4.7: 高速モデルはフラッグシップを打ち破れるか？

過去33日間で、3つのフロンティアクラスのリリースが出そろいました。AnthropicのClaude Opus 4.7は4月16日に登場し、OpenAIのGPT-5.5が4月23日に続き、GoogleのGemini 3.5 Flashは5月19日に出荷されました。Gemini 3.5 Proは6月に登場予定です。

今すぐApidogを試す

最初に整理しておくべき点があります。これは同じ価格帯の比較ではありません。Opus 4.7とGPT-5.5はフラッグシップ価格のフラッグシップモデルです。一方、Gemini 3.5 FlashはGoogleの高速・低コスト版です。実装上の問いは、「Flashが最高か」ではなく、「トークンあたり5〜10倍高価なモデルを使う必要があるワークロードはどれか」です。

結論から言うと、Flashは価格帯を大きく超える性能を出します。コスト、速度、長文コンテキスト、いくつかのエージェント系ベンチマークでは非常に強いです。一方で、最難関のコード修正や長文執筆品質ではOpus 4.7やGPT-5.5が有利です。したがって、実装では「1つの勝者」を決めるより、タスクごとにモデルをルーティングするのが現実的です。

30秒でわかる選び方

質問	最適解
最も安価な本番エージェントループ	Gemini 3.5 Flash
SWE-Bench Verifiedのバグ修正で最高スコア	Opus 4.7
大規模利用で最もトークン効率が良い	GPT-5.5
1Mトークン級の長文コンテキスト検索	Gemini 3.5 Flash
グラフとドキュメント理解	Gemini 3.5 Flash
長時間CLIエージェント	GPT-5.5、Terminal-Bench 2.0
複数ステップ指示追従	Opus 4.7
最速のトークン出力	Gemini 3.5 Flash、他モデルの約4倍
レポジトリ全体のコードリファクタリング	Opus 4.7

単一の勝者はいません。実装では、次のようにワークロード単位で選びます。

低コストで大量に回す: Gemini 3.5 Flash
CLIエージェントやトークン効率重視: GPT-5.5
複雑なコード変更や長文品質重視: Opus 4.7

リリーススケジュール

3つのモデルは近い時期に出荷されましたが、狙っているポジションが異なります。

Opus 4.7: 2026年4月16日。Anthropicのフラッグシップ推論モデル。コードと拡張された複数ステップ作業に最適化。フラッグシップティア。
GPT-5.5: 2026年4月23日。GPT-4.5以来、OpenAI初の完全再学習されたベースモデル。エージェント効率とトークンコスト削減に焦点。フラッグシップティア。
Gemini 3.5 Flash: 2026年5月19日。Google 3.5ファミリーの高速バリアント。低コスト・高速なエージェント実行に焦点。ミッドティア。Gemini 3.5 Proは2026年6月に出荷予定。

コーディングツール観点の比較は、Cursor Composer 2.5 vs Opus 4.7 vs GPT-5.5も参考になります。前世代との比較はGemini 3.1 Pro vs Opus 4.6 vs GPT-5.3を参照してください。

価格比較

ティアの違いが最もはっきり出るのが価格です。

モデル	入力、$/1M	出力、$/1M	備考
Gemini 3.5 Flash	約$1.50	約$9.00	無料ティアあり
GPT-5.5	約$10	約$30	キャッシュ入力はより安価
Claude Opus 4.7	約$15	約$75	最高価格帯

トークンあたりでは、Flashは入力で6〜10倍、出力で3〜8倍安価です。バッチモードやVertex AIを含む詳細はGemini 3.5 Flashの価格詳細を参照してください。GPT-5.5についてはGPT-5.5の価格にまとまっています。

実装時は「1リクエストの価格」ではなく、「1タスクの完了コスト」で見るべきです。エージェントワークロードでは、1タスクあたり数十〜数百回モデルを呼び出すことがあります。この場合、モデル単価の差はそのままインフラコスト差になります。

ただし、トークン効率も重要です。GPT-5.5は同じタスクに対して出力トークンが明らかに少ない場合があり、時にはOpus 4.7より72%少ないことがあります。つまり、トークン単価が高くても、タスク単位では差が縮まるケースがあります。

簡単な判断基準は次の通りです。

大量・反復・低単価が重要      -> Gemini 3.5 Flash
出力トークンを絞りたい        -> GPT-5.5
品質最優先でコスト許容        -> Opus 4.7

コーディングベンチマーク

コーディングは、3モデルの差が最も出やすい領域です。

SWE-Bench Verified: 単一問題のバグ修正

モデル	スコア
Opus 4.7	87.6%
GPT-5.5	約85%
Gemini 3.5 Flash	個別報告なし

Opus 4.7は、単一バグ修正ベンチマークで依然としてリードしています。GPT-5.5との差は数ポイントで、ほとんどのワンショットのコード修正では両者とも実用的です。

Flashは比較可能な公式数値を公表していません。非公式テストでは、純粋なSWE-Bench Verifiedでは両フラッグシップを下回る傾向があります。これは高速・低コストティアとしては自然な結果です。

実装上は、次のように使い分けると安全です。

小さな修正、テスト生成、コード説明       -> Flash
本番バグ修正、複雑な推論が必要な修正     -> GPT-5.5 または Opus 4.7
失敗時の再試行先                         -> Opus 4.7

SWE-Bench Pro: 複数ファイルにわたる複雑な修正

モデル	スコア
Opus 4.7	64.3%
GPT-5.5	58.6%
Gemini 3.5 Flash	個別報告なし

複数ファイルのリファクタリングはOpus 4.7が最も得意とする領域です。Cursor ComposerやClaude Codeでリポジトリ全体にわたる変更を行う場合、Opus 4.7がより安全な選択肢になります。

一方、日常的な変更や軽いコードレビュー、テストケース生成であれば、Flashでも十分なケースが多く、コストを大きく抑えられます。

Terminal-Bench 2.0/2.1: CLIエージェントループ

モデル	スコア	ベンチマーク
GPT-5.5	82.7%	Terminal-Bench 2.0
Gemini 3.5 Flash	76.2%	Terminal-Bench 2.1
Opus 4.7	69.4%	Terminal-Bench 2.0

Terminal-Bench 2.0と2.1は異なるタスクミックスのスコアボードです。直接の横並び比較には注意が必要ですが、傾向として、FlashとGPT-5.5は長時間のCLIエージェント実行で強いです。

CLIエージェントでは、モデルが次のループを何度も実行します。

状態を読む
-> コマンドを決める
-> 実行結果を見る
-> 次のアクションを決める
-> 完了判定する

このようなループでは、1回あたりの品質だけでなく、速度、出力の簡潔さ、ツール呼び出しの安定性が効いてきます。GPT-5.5はトークン効率で有利です。Flashは低コストと高速出力で有利です。

MCP Atlas: マルチツール連携

Gemini 3.5 FlashはMCP Atlasで83.6%を記録しています。これはGoogleがエージェント的なツール使用の主要指標としているベンチマークです。

OpenAIとAnthropicは同じベンチマークで比較可能な数値を公開していないため、直接比較は困難です。ただし、2026年時点では3モデルともツール呼び出しワークロードで十分に実用的です。

実装時は、モデル性能だけでなく、次の失敗モードをテストしてください。

関数名を間違える
必須引数を落とす
JSONスキーマから外れる
同じツールを無限に呼び続ける
エラー後に回復できない

エージェント的および長期的な作業

監視なしで数十分から数時間動くタスクでは、品質だけでなく運用コストが重要です。

Gemini 3.5 Flash

タスクあたりの価格と出力速度で有利です。MCP Atlas 83.6%、Terminal-Bench 2.1 76.2%は、ツール使用挙動の安定性を示しています。サブエージェントのディスパッチ用途にも向いています。
GPT-5.5

Terminal-Bench 2.0 82.7%とトークン効率で有利です。出力トークンが少ないため、コスト超過やノイズの増加を抑えやすいです。
Opus 4.7

複数ステップの指示追従とコード品質で有利です。ただし、出力が長くなりやすいため、非常に長い実行では速度と価格の面で不利になります。

CodexとClaude Codeによる/goalコマンドパターンのように継続的なエージェントを動かす場合、経済性は無視できません。

実装パターンとしては、次のようなルーティングが現実的です。

if task.type in ["search", "summarize", "doc_extract"]:
    model = "gemini-3.5-flash"
elif task.type in ["cli_agent", "tool_loop"]:
    model = "gpt-5.5"
elif task.type in ["repo_refactor", "complex_code_change"]:
    model = "opus-4.7"
else:
    model = "gemini-3.5-flash"

コンテキストウィンドウと長文コンテキスト検索

モデル	最大入力	最大出力
Gemini 3.5 Flash	1Mトークン	64Kトークン
GPT-5.5	400Kトークン	128Kトークン
Opus 4.7	1Mトークン、ベータ版	64Kトークン

Flashは、Googleが公開している1MトークンのMRCR v2検索ベンチマークでリードしています。これは、チャンキング戦略なしで「200ページPDFの中から正しい答えを探す」ような用途に向いています。

Opus 4.7もウィンドウサイズでは同等ですが、高負荷時の検索一貫性ではFlashが有利です。GPT-5.5の400Kも十分に大きいですが、純粋な入力規模ではFlashに劣ります。

ドキュメントを多用するワークフローでは、Flashをデフォルトにし、失敗時だけフラッグシップへフォールバックする構成が使いやすいです。

例:

1. PDF、仕様書、ログ、コードベースをFlashに投入
2. 必要箇所の抽出、要約、候補生成を行う
3. 重要な最終判断だけGPT-5.5またはOpus 4.7に渡す

マルチモーダル

Flashはグラフとドキュメント推論で強いです。

CharXiv Reasoning: 84.2%、Gemini 3.5 Flash
MMMU-Pro: 83.6%、Gemini 3.5 Flash

OpenAIとAnthropicもフラッグシップモデルで画像入力をサポートしていますが、ローンチ時点でのFlashのグラフ推論スコアには及んでいません。

次のようなワークロードではFlashを優先しやすいです。

PDFからの情報抽出
グラフや表の読み取り
スクリーンショットを含むバグ報告の解析
テキストと画像を組み合わせたQA
ドキュメントレビューの自動化

画像生成をパイプラインに組み込む場合は、Gemini 3 Pro Image vs Seedreamの比較も参考になります。

出力速度

ユーザーがストリーミング出力を待つUIでは、1秒あたりのトークン数が体感品質に直結します。

モデル	相対出力速度
Gemini 3.5 Flash	ベースラインの約4倍
GPT-5.5	ベースライン
Opus 4.7	ベースラインの約0.7倍

数値は地域や負荷によって変動しますが、傾向は一貫しています。Flashは両フラッグシップより明らかに速くストリーミングします。

チャットUIやライブコーディングアシスタントでは、多少の品質差よりも「すぐ返ってくる」ことが重要な場合があります。その場合、Flashをデフォルトにして、ユーザーが明示的に高品質モードを選んだときだけGPT-5.5やOpus 4.7に切り替える設計が有効です。

推論、数学、科学

ベンチマーク	Flash	GPT-5.5	Opus 4.7
GPQA Diamond	強力、Googleの表より	高	高
数学的推論	強力	強力	強力
長文執筆	良い	良い	最高

この領域では上位モデルが拮抗しています。Flashは高速ティアにもかかわらず十分な性能を出します。Opus 4.7は依然として長文で慎重な文章生成に強いです。GPT-5.5は推論能力とトークン効率のバランスが良いです。

実装上は、出力物の性質で選びます。

計算補助、短い推論、分類       -> Flash
長い推論チェーンを低ノイズで    -> GPT-5.5
顧客向け長文、慎重な文章        -> Opus 4.7

ツールエコシステムと統合

Opus 4.7

Claude Code、MCP、Anthropic API、成熟したツールエコシステム、Bitwarden Agent、幅広いIDEサポート。
GPT-5.5

OpenAI Codex、Responses API、ChatGPTアプリ統合。関数呼び出しは長い実績があります。
Gemini 3.5 Flash

Antigravity、Gemini Enterprise Agent Platform、Gemini CLI、Android Studio統合。急速に成長中。

Anthropicはサードパーティアダプターの深さがあります。OpenAIは開発者採用の広さがあります。GoogleはAntigravityとAgent Platformで追いついていますが、サードパーティ基盤はまだ成長途中です。

どのモデルを選択すべきか

ベンチマークよりも、実際のワークロードで選ぶべきです。

Gemini 3.5 Flashを選ぶ場合

タスクごとの予算が厳しい
ストリーミングUIの応答速度が重要
1Mトークン級の長文ドキュメントを処理する
グラフ、PDF、スクリーンショットを扱う
低価格で信頼できるエージェントループを作りたい
すでにGoogle CloudまたはWorkspaceを使っている
大量処理で「最高品質」より「十分な品質」が重要

GPT-5.5を選ぶ場合

トークン効率が最優先
CLI駆動のエージェント作業が中心
Terminal-Bench系のような長時間ループを重視する
幅広いサードパーティツールアダプターを使いたい
チームのワークフローにChatGPTがすでに組み込まれている
セットアップ手順はGPT-5.5 APIの利用方法を参照してください

Opus 4.7を選ぶ場合

複数ファイルのコードリファクタリングが中心
リポジトリ全体にわたる変更がある
複数ステップの指示追従品質が速度より重要
長文執筆や慎重な物語調の出力が成果物
すでにClaudeプランでClaude Codeを使っている
タスクあたりのコストが主要な制約ではない

ブレンドして選ぶ場合

本番環境では、1つのモデルに固定するより、2つ以上を組み合わせる方が現実的です。

よくある構成は次の通りです。

検索と準備にFlash、最終コミットにOpus

安価なモデルでコンテキスト収集を行い、高価なモデルには整理済み入力だけを渡します。
CLIエージェントにGPT-5.5、グラフ/ドキュメント分析にFlash

それぞれの得意領域に分担します。
トラフィックの80%にFlash、難しい20%にOpusまたはGPT-5.5

タスク複雑度に応じてルーティングします。
3モデルを薄いルーターの背後に置く

タスクタイプ、予算、レイテンシ、失敗回数で動的に選択します。

シンプルなルーター例:

function selectModel(task) {
  if (task.requiresRepoWideRefactor) return "opus-4.7";
  if (task.isCliAgentLoop) return "gpt-5.5";
  if (task.hasLargeDocs || task.hasImages) return "gemini-3.5-flash";
  if (task.latencySensitive) return "gemini-3.5-flash";
  return "gemini-3.5-flash";
}

無料ティアの比較

3つすべてに無料利用の経路があります。

Gemini 3.5 Flash

AI Studio APIキー、1日あたり約1,500リクエスト。Flash無料ガイドを参照してください。
GPT-5.5

ChatGPTでの無料クエリは制限付きです。GPT-5.5無料ガイドで紹介されているゲートウェイも利用できます。
Opus 4.7

Claude.aiのデイリー制限に加えて、Opus 4.7無料ガイドで紹介されている方法があります。

3つの中では、Flashの無料API利用経路が最も開発者フレンドリーです。AI Studioでは、クレジットカードなしで動作するキーと、実用的なデイリークォータが提供されます。

自分のワークロードで3モデルをテストする方法

ベンチマークは平均的な傾向を示します。実際に重要なのは、あなたのプロンプト、データ、ツール、失敗条件です。

小さな評価ハーネスを作りましょう。

実際のユースケースから代表的なタスクを20個選ぶ
各タスクに対して3モデルすべてを実行する
タスク成功、総コスト、レイテンシを記録する
失敗モードを記録する
- 拒否
- JSONスキーマの崩れ
- ツール呼び出し引数の変化
- 幻覚
- 途中停止
- 出力過多

ここでApidogが役立ちます。Gemini、OpenAI、Anthropicの3つのAPIエンドポイントをパラメータ化されたリクエストとして保存し、APIキーを環境変数に入れ、同じプロンプトを3モデルに対して実行できます。応答はApidogのテストフレームワークに戻され、並べて比較できます。

具体的な設定手順です。

Apidogをダウンロード
Frontier Model Eval という名前のワークスペースを作成する

プロバイダーごとに1つずつ、3つのリクエストを保存する
- Gemini 3.5 Flash
- GPT-5.5
- Opus 4.7
同じプロンプトを3つすべてに送るテストシナリオを作る
応答アサーションを追加する
- JSON形式
- 必須フィールド
- 必須文字列
- レイテンシ閾値
モデルドリフトを検出するために、シナリオを毎週実行する

評価用の最小チェックリストは次のようになります。

[ ] 同じ入力を3モデルに送ったか
[ ] 成功/失敗を人間が確認したか
[ ] レイテンシを記録したか
[ ] 入出力トークンを記録したか
[ ] 総コストを計算したか
[ ] JSONスキーマの安定性を確認したか
[ ] 失敗時のフォールバック先を決めたか

「どのモデルが良い感じか」を3か月議論するより、2日で評価ハーネスを作る方が有効です。

次に何が変わるか

今後90日間で注目すべき点は3つです。

Gemini 3.5 Pro GA

6月にPro版が登場すれば、比較は変わります。Flashはコストと速度の面で有利を保ちますが、ProはOpus 4.7とGPT-5.5に対する直接的なフラッグシップ競合になります。
OpenAIの反応

GPT-5.5は4月リリースです。Gemini 3.5 Proが強力に登場すれば、中間サイクルのアップデートや新しいバリアントが登場する可能性があります。
Anthropicの次の動き

Opus 4.7は現在のAnthropicのフラッグシップです。次四半期にSonnet更新またはOpus 4.8が登場すれば、自然な流れです。

この領域は毎月変化しています。実装上の正解は、評価ハーネスを常に動かし、数値が変わったらルーティングを変更し、単一プロバイダーに固定しないことです。

FAQ

Gemini 3.5 Flashは本当にOpus 4.7やGPT-5.5と競争力がありますか？

はい、その価格帯では非常に競争力があります。Flashはエージェントベンチマークでクラスを超える性能を示し、コスト面で大きく有利です。ただし、複雑な複数ファイルリファクタリングや慎重な長文執筆では、フラッグシップモデルが依然としてリードしています。

なぜ高速ティアモデルをフラッグシップと比較するのですか？

コスト差が非常に大きいからです。フラッグシップが少し良い結果を出しても、本番ワークロードではFlashの方が合理的な場合があります。重要な問いは「Flashはこのワークロードに十分か」です。

Opus 4.7は高い価格に見合いますか？

コードや文章のターンごとの品質が最重要なら見合います。大量のエージェントループでは、タスクあたりのコストでFlashが有利になりやすいです。

3モデルすべてを1つのAPIで使えますか？

直接はできません。各プロバイダーは独自のエンドポイントを持っています。OpenAI互換モードをサポートする経路もありますが、認証情報は分けて管理する必要があります。最もクリーンなのは、モデル呼び出しを自前の薄いラッパーで抽象化することです。

Gemini 3.5 Proはいつ出荷されますか？

2026年6月です。Opus 4.7とGPT-5.5に対するフラッグシップティアの競合になります。それまでは、3.5ファミリーではFlashが主要な選択肢です。

3プロバイダーを使う場合、コストはどう監視すべきですか？

Apidogのリクエスト履歴でモデルごとの利用状況を追跡するか、各プロバイダーのダッシュボードを集計してください。テスト中の予期しない請求を避けるため、モデルごとに予算アラートを設定するべきです。

結論

3つのモデルはいずれも本番利用に値します。ただし、得意分野は異なります。

Gemini 3.5 Flash

安価、高速、マルチモーダル、長文コンテキストに強く、かつてフラッグシップが必要だった多くのエージェントワークロードを処理できます。
GPT-5.5

トークン効率が高く、CLIを多用するエージェント自動化に向いています。
Opus 4.7

高品質なコードリファクタリングと長文執筆に向いています。

実装でやるべきことはシンプルです。

自分の評価セットを作る
実ワークロードで3モデルを比較する
成功率、コスト、レイテンシを測る
タスクごとにルーティングする
モデル更新に合わせて定期的に再評価する

リーダーが毎月変わる市場では、固定された「最強モデル」を探すより、切り替え可能な評価・ルーティング基盤を持つ方が強いです。6月のGemini 3.5 Pro登場で、この比較はさらに変わる可能性があります。

DEV Community