OpenAIはGPT-5.5の2種類のモデルを提供しています。Instantは入力100万トークンあたり$5、出力100万トークンあたり$30、Proは入力100万トークンあたり$30、出力100万トークンあたり$180です。つまり、Proは全体で6倍のプレミアムです。エンジニアリングチームが判断すべきことはシンプルです。どの機能でProの追加費用が回収でき、どこからが無駄遣いになるのかです。
このガイドでは、実ワークロードでのコスト計算、Proが有利になりやすいタスク、精度向上とレイテンシーのトレードオフ、そしてApidogでそのまま再現できる比較テスト手順を扱います。
要点
チャット、要約、分類、検索QA、誤答の検出や修正にかかるコストが$0.50未満のタスクでは、まずGPT-5.5 Instantを使います。
Proへ切り替えるべきなのは、1つの不正確な出力が、会話全体にかかる6倍のトークンプレミアムを上回る損失につながる場合です。典型例は、法律文書、医療トリアージ、財務分析、エージェント計画、複数ファイルにまたがるコードリファクタリングです。
ある機能で「誤答がいくらの損失になるか」を説明できないなら、その機能にProを使う判断材料はまだ不足しています。
はじめに
GPT-5.5の料金体系では、モデル選択を感覚ではなく数値で扱えます。以前はベンチマークを見て推測する場面が多くありましたが、InstantとProの価格差は明確です。機能ごと、呼び出しごと、ユーザーごとにコストをモデル化できます。
たとえば、1日10万件のカスタマーサービスメッセージを処理する場合、同じ作業量でもInstantなら月額$4,500、Proなら月額$27,000になる可能性があります。差額は月額$22,500です。この差を「なんとなく高品質だから」ではなく、定量的に正当化する必要があります。
この投稿では、コスト計算、OpenAIが公開している精度データ、そして予算を投下する前に自分のプロンプトでInstantとProを比較するためのApidogテスト手順を示します。
5.5ファミリーを初めて利用する場合は、GPT-5.5 InstantのアクセスとAPIガイドでエントリーレベルのティアを確認できます。OpenAI APIの機能別利用額追跡プレイブックでは、これらのコストを本番環境の機能に割り当てる方法を扱っています。より広いAPIサーフェスについては、GPT-5.5 APIリファレンスウォークスルーでパラメーター、ストリーミング、構造化出力を確認してください。
GPT-5.5ファミリーを支える2つのモデル
InstantとProは、モデルファミリー、コンテキストウィンドウ、APIサーフェスを共有しています。主な違いは次の3つです。
- エンドポイント背後のモデル能力
- デフォルトの推論予算
- トークンあたりの価格
モデルIDは次のとおりです。
| モデル | model |
|---|---|
| GPT-5.5 Instant | gpt-5.5 |
| GPT-5.5 Pro | gpt-5.5-pro |
両方とも272,000トークンの入力コンテキストと128,000トークンの出力をサポートし、同じreasoning_effort値を受け入れます。
minimallowmediumhigh
Responses APIでの呼び出し形式も同じです。そのため、本番コードではモデルIDを差し替えるだけで比較できます。
料金は次のように比較できます。
| ティア | 入力100万トークン | 出力100万トークン |
|---|---|---|
| Instant | $5 | $30 |
| Pro | $30 | $180 |
Proは入力・出力ともに6倍です。
バッチティアではこれらの価格が半額になります。リアルタイムでないジョブでは、Instantは$2.50/$15、Proは$15/$90です。プロンプトキャッシュを使うと、キャッシュ済み入力トークンはInstantで$0.50、Proで$3まで下がります。
つまり、バッチやキャッシュを使える場面で使わない場合、不要に高いコストを払うことになります。
レイテンシーも大きく異なります。reasoning_effort=minimalのInstantは、短いプロンプトなら最初のトークンが200〜400ミリ秒で返ることがあります。一方、reasoning_effort=highのProは、応答前に長い内部推論を行うため、最初のトークンまで8〜30秒かかることがあります。GPT-5.5 Proのリリースノートに関するTechCrunchの記事もこの差に触れています。
チャットUIならユーザーは待ち時間に気づきます。非同期パイプラインなら影響は小さくなります。
reasoning_effortはモデル選択とセットで考えてください。lowのProは、highのProよりもhighのInstantに近いケースがあります。モデル名だけでなく、推論労力も比較軸に含めます。
精度差: Proが優位に立つ場所
OpenAIが公開している評価では、Proはエラーが連鎖する多段階タスクで強くなります。一方で、検索、フォーマット、要約のような単発タスクでは、Instantでも近い結果になることがあります。
報告されている代表的な傾向は次のとおりです。
| 評価 | Pro | Instant | 傾向 |
|---|---|---|---|
| GPQA Diamond | 87% | 71% | Proが有利 |
| SWE-bench Verified | 約78% | 61% | Proが有利 |
| MMLU / HellaSwag | 90%台後半 | 90%台後半 | 差は小さい |
| 安全性が重要な医療・法務プロンプト | Instantより誤答が約40%少ない | - | Proが有利 |
Proが向くタスクは次のようなものです。
- 法律契約の作成とレビュー
- 医療の鑑別診断
- 財務文書分析
- 多段階エージェント計画
- 複数ファイルを横断するコード修正
- 長い制約を保持したまま判断するワークフロー
Instantがコスト調整後に有利になりやすいタスクは次のとおりです。
- カスタマーサポートチャット
- FAQ検索
- コンテンツ要約
- 感情分類
- 意図ルーティング
- 明確なツールスキーマに基づく関数呼び出し
- 単一ファイル内のコード補完
回答がすでにプロンプト内にある場合や、固定テンプレートに従うだけの場合、長い推論ループは追加価値を生みにくくなります。
APIでInstantとProを比較する
Responses APIの呼び出し形式は同じです。変えるのはmodelとreasoning.effortだけです。
from openai import OpenAI
client = OpenAI()
prompt = """Analyze this contract clause for unilateral termination risk:
'Either party may terminate this agreement for convenience upon
thirty (30) days written notice, provided that the terminating party
shall pay any amounts then due.'"""
# Instant, fastest config
instant = client.responses.create(
model="gpt-5.5",
reasoning={"effort": "minimal"},
input=prompt,
)
# Pro, deepest config
pro = client.responses.create(
model="gpt-5.5-pro",
reasoning={"effort": "high"},
input=prompt,
)
print("INSTANT:", instant.output_text)
print("PRO:", pro.output_text)
このような比較では、次の項目を必ず記録します。
- 入力トークン数
- 出力トークン数
- レイテンシー
- コスト
- 人間による品質評価
- 実運用上のリスク
小さなベンチマークリグを作ると、実際のプロンプトセット全体で比較できます。
import time, csv
from openai import OpenAI
client = OpenAI()
PROMPTS = open("eval_prompts.txt").read().split("\n---\n")
CONFIGS = [
("gpt-5.5", "minimal"),
("gpt-5.5", "high"),
("gpt-5.5-pro", "minimal"),
("gpt-5.5-pro", "high"),
]
with open("results.csv", "w") as f:
w = csv.writer(f)
w.writerow([
"model",
"effort",
"prompt_id",
"latency_s",
"in_tokens",
"out_tokens",
"cost_usd",
"output"
])
for i, p in enumerate(PROMPTS):
for model, effort in CONFIGS:
t0 = time.time()
r = client.responses.create(
model=model,
reasoning={"effort": effort},
input=p,
)
dt = time.time() - t0
ti = r.usage.input_tokens
to = r.usage.output_tokens
rate_in = 5 if model == "gpt-5.5" else 30
rate_out = 30 if model == "gpt-5.5" else 180
cost = (ti * rate_in + to * rate_out) / 1_000_000
w.writerow([
model,
effort,
i,
round(dt, 2),
ti,
to,
round(cost, 5),
r.output_text[:500]
])
実運用に近い50〜200件のプロンプトで実行し、人間がブラインドで評価します。公開ベンチマークの差は、あなたのワークロードでの差と一致するとは限りません。
評価ワークフローについては、AIエージェントAPIテストガイドで詳しく説明しています。AI駆動型テスト生成では、本番トレースからプロンプトセットを作る方法を扱っています。
コスト計算: 6倍の価値はいつあるのか?
3つの具体例で見ます。
機能1: カスタマーサポートボット
条件:
- 1日10万件のメッセージ
- 平均入力: 800トークン
- 平均出力: 250トークン
1日のトークン量:
- 入力: 8,000万
- 出力: 2,500万
Instant:
- 入力: $400/日
- 出力: $750/日
- 合計: $1,150/日
- 月額: 約$34,500
Pro:
- 入力: $2,400/日
- 出力: $4,500/日
- 合計: $6,900/日
- 月額: 約$207,000
差額は月額$172,500です。サポートチャットのようにInstantでも十分な品質が出るタスクでは、Proは過剰になりやすいです。
結論: Instantを使い、節約分を検索品質、ナレッジベース、プロンプト改善に投資します。
機能2: コードレビューアシスタント
条件:
- 1日5,000件のレビューコメント
- 平均入力: 8,000トークン
- 平均出力: 1,200トークン
1日のトークン量:
- 入力: 4,000万
- 出力: 600万
Instant:
- $380/日
- $11,400/月
Pro:
- $2,280/日
- $68,400/月
差額は月額$57,000です。
ここでは、API費用ではなくエンジニア時間と比較します。たとえばProがInstantより1,000レビューあたり5件多く実バグを見つけ、各バグ修正にシニアエンジニア1時間、負荷込み時給$150がかかるなら、1,000レビューあたり25時間の節約です。
5,000レビューでは1日125時間、つまり$18,750/日の節約になります。月額では$562,500相当です。追加API費用の$57,000を大きく上回ります。
結論: Proを使う価値があります。ただし、検出率を実測することが前提です。
機能3: 法的文書要約ツール
条件:
- 1日500文書
- 平均入力: 40,000トークン
- 平均出力: 3,000トークン
1日のトークン量:
- 入力: 2,000万
- 出力: 150万
Instant:
- $145/日
- $4,350/月
Pro:
- $870/日
- $26,100/月
差額は月額$21,750です。
ベンダー契約で1つの補償条項を見落とすだけで、Proの年間プレミアム以上の損失につながる可能性があります。
結論: Proを使います。リアルタイムである必要がないならバッチティアを使い、Pro料金を月額$13,050程度まで下げます。
損益分岐点の考え方
Proを使う判断は、次の式で考えます。
期待損失削減額 > Proの追加コスト
より実務的には、次のように考えます。
誤答1件のコスト × Proによる誤答削減率 × 呼び出し数
>
Proの追加トークンコスト
誤答コストが$50で、Proによる改善が1%しかないなら、Proを使える範囲はかなり狭くなります。一方、誤答コストが$5,000で同じ1%改善なら、Proの追加費用は簡単に正当化できます。
モデルは呼び出し量ではなく、間違いのコストに合わせて選んでください。
また、どちらのティアでもキャッシュを積極的に使います。プロンプトキャッシュをオンにすると、繰り返されるシステムプロンプトはInstantで入力100万トークンあたり$0.50、Proで$3まで下がります。OpenAIの利用額割り当てガイドでは、機能ごとの節約を計測する方法を説明しています。
ApidogでPro/Instantのトレードオフをテストする
公開ベンチマークだけで本番投入を決めるべきではありません。Apidogで小さな回帰テストスイートを作り、プロンプト変更のたびにInstantとProを比較します。
1. Apidogでプロジェクトを作成する
Apidogを開き、新しいプロジェクトを作成します。
その中に、OpenAI Responses API向けのリクエストを2つ追加します。
POST https://api.openai.com/v1/responses
リクエスト名:
gpt55-instant-minimalgpt55-pro-high
2. 共通ヘッダーを設定する
両方に同じヘッダーを設定します。
Authorization: Bearer {{OPENAI_KEY}}
Content-Type: application/json
{{OPENAI_KEY}}はApidogの環境変数として保存します。APIキーをリクエストボディや共有ドキュメントに直接貼り付けないでください。
3. Instantリクエストを作る
{
"model": "gpt-5.5",
"reasoning": {
"effort": "minimal"
},
"input": "{{prompt}}"
}
4. Proリクエストを作る
{
"model": "gpt-5.5-pro",
"reasoning": {
"effort": "high"
},
"input": "{{prompt}}"
}
5. プロンプトデータをバインドする
{{prompt}}に、1行1件またはCSV形式のテストプロンプトデータをバインドします。最初は50〜200件で十分です。
プロンプトセットには次の種類を混ぜます。
- 平均的な本番リクエスト
- 難しいリクエスト
- 過去に失敗したリクエスト
- 境界ケース
- 長いコンテキストを含むケース
- 構造化出力が必要なケース
6. メトリクスを保存する
各リクエストで次を保存します。
response.usage.input_tokensresponse.usage.output_tokensresponse.usage.cached_tokens- レイテンシー
- 応答本文
- 成功/失敗
- スキーマ検証結果
Apidogは応答本文とタイミングを保存できるため、同じプロンプトに対するInstantとProの出力を並べて比較できます。
7. CSVへエクスポートしてコストを計算する
実行結果をCSVとしてエクスポートし、次のレートでプロンプト単位のコストを計算します。
Instant cost = (input_tokens × 5 + output_tokens × 30) / 1,000,000
Pro cost = (input_tokens × 30 + output_tokens × 180) / 1,000,000
これにより、機能ごとの判断ルールを1時間程度で作れます。四半期単位で推測する必要はありません。
8. 回帰テストとして保存する
プロジェクト全体を回帰テストスイートとして保存します。OpenAIが新しいモデルを出したときや、システムプロンプトを変更したときに再実行します。
Apidogのワークスペースでは履歴を保持できるため、精度低下がいつ起きたか、どのプロンプト変更が原因かをチームで確認できます。Apidogをダウンロードし、QAエンジニア向けのAPIテストワークフローで回帰テストスイートの設定手順を確認してください。
高度なテクニックと実装上の注意
ユーザー単位ではなく機能単位でルーティングする
「プレミアムユーザーは全員Pro」のようなポリシーは高くつきます。
代わりに、API呼び出しへ次のタグを付けます。
{
"feature": "contract_review",
"error_cost_class": "high",
"latency_class": "async",
"model_policy": "pro_allowed"
}
モデル選択はこのタグを使ってルーティング層で行います。多くのプロダクトでは、サブスクリプションティアに関係なく、80%程度の呼び出しはInstant、20%程度がProになります。
Proはエスカレーションパスとして使う
よく機能するパターンは次の流れです。
- まずInstantへ送る
- 応答を検証する
- 失敗した場合だけProへエスカレートする
検証条件の例:
- JSON Schemaに違反した
- 信頼度スコアが低い
- 必須フィールドが欠落した
- ツール呼び出しが失敗した
- 禁止表現や安全性チェックに引っかかった
- 重要な根拠が引用されていない
疑似コードは次のようになります。
def route_llm_request(prompt, feature):
instant = call_model(
model="gpt-5.5",
effort="minimal",
input=prompt,
)
if passes_validation(instant, feature):
return instant
return call_model(
model="gpt-5.5-pro",
effort="high",
input=prompt,
)
これなら、全リクエストにInstant料金を払い、必要な5〜15%だけProのプレミアムを払う形になります。ワークロード全体では、6倍ではなく実質1.3倍程度に抑えられることがあります。
プロンプトキャッシュを前提に設計する
キャッシュ済み入力トークンは大幅に安くなります。
| モデル | 通常入力 | キャッシュ済み入力 |
|---|---|---|
| Instant | $5 | $0.50 |
| Pro | $30 | $3 |
システムプロンプトが1,000トークンを超えて安定しているなら、キャッシュしない呼び出しは無駄になりやすいです。
確認すべきこと:
- システムプロンプトのプレフィックスが毎回完全一致している
- 動的なユーザー情報を先頭に混ぜていない
-
response.usage.cached_tokensを記録している - キャッシュヒット率が下がったらアラートを出す
非リアルタイム処理はバッチへ回す
10分以内の応答が不要な処理は、バッチAPIの候補です。
例:
- 夜間のコンテンツ生成
- 週次レポート要約
- 過去ログの分類
- 法務文書の一括レビュー
- データ移行時のラベリング
バッチティアはモデル切り替えではなく、配信時間の割引です。同じモデルで半額になります。
272Kトークンの崖に注意する
InstantとProはどちらも272,000トークンの入力コンテキストをサポートします。ただし、長いコンテキストを詰め込むほどコストは線形に増えます。
さらに、約180,000トークンを超えると、情報検索タスクの精度が低下し始めることがあります。コンテキストウィンドウをすべて埋めるのではなく、チャンク化と検索を使います。
推奨パターン:
- 文書をチャンク化する
- ベクトル検索またはキーワード検索で候補を絞る
- 必要なチャンクだけをプロンプトへ入れる
- 高リスクなケースだけProへ送る
よくある間違い
- ルーティング層ではなくクライアントコードでモデルを選ぶ
- 自分のプロンプトではなく公開ベンチマークだけで判断する
-
reasoning_effort=minimalで十分なプロンプトにProのhighを使う -
max_output_tokensを設定しない - キャッシュミスを監視しない
- すべての有料ユーザーにProを割り当てる
- レイテンシー要件を考えずにProを同期UIへ組み込む
- 機能別ではなく全体平均のAPIコストだけを見る
より広いモデルファミリーの比較については、Gemini 3 FlashプレビューAPIガイドがGoogle側の同等ティアを扱っています。無料のGPT-5.5 APIアクセスオプションでは、開発者向けの無料クレジットについて確認できます。
実際の使用例
中規模保険会社の保険金請求トリアージ
初期の取り込み要約はInstantへ送り、複雑なポリシーに関する質問だけProへエスカレートします。
結果として、請求の約12%だけがProパスに入ります。すべてをProへ送っていた構成と比べて総支出は60%減少し、規制監査セットでの精度は向上しました。Proが本当に難しい12%に推論予算を使えるためです。
開発者ツール企業のコードレビューアシスタント
すべてのPRをInstantで確認し、次の条件に当てはまるものだけProへ送ります。
- 3つ以上のファイルに触れている
- セキュリティ関連パスを変更している
- DBマイグレーションを含む
- 認証・課金・権限まわりを変更している
Proは年間$40,000の追加API費用で、早期バグ検出による推定$300,000のエンジニアリング時間削減に貢献しました。追加で3.8%のバグを検出できたためです。
病院の受付要約ツール
すべての患者要約をreasoning_effort=highのProへ送ります。誤答コストが非常に高いため、トークンコストの議論は優先度が下がります。
ただし、リアルタイム応答が不要な80%の要約は夜間バッチで処理し、請求額を50%削減しています。
結論
InstantとProの6倍の価格差は、欠点ではなく設計上の判断材料です。正確性にいくら払う価値があるのかを、機能ごとに明確にできます。
実務上の判断基準は次のとおりです。
- モデルは機能ごとに選ぶ
- デフォルトはInstantにする
- 誤答の金銭的コストを説明できる場合だけProへエスカレートする
-
reasoning_effortを第三の軸として扱う - システムプロンプトをキャッシュする
- 非同期ワークロードはバッチティアへ送る
- 本番投入前にApidogで回帰テストスイートを作る
- キャッシュヒット率と機能別コストを毎月確認する
- モデル更新や価格改定のたびに損益分岐点を再計算する
次の計画サイクル前に、自分のプロンプトでInstantとProのコスト・精度比較を実行してください。5.5ファミリー全体の理解には、GPT-5.5 InstantアクセスガイドとOpenAIの機能別利用額割り当てプレイブックも参考になります。
FAQ
Q: GPT-5.5 ProはInstantより6倍優れていますか?
A: いいえ。トークンあたりの費用が6倍高いだけです。多くのワークロードではわずかに優れている程度です。ただし、ハイステークスな多段階タスクでは大きな差が出ることがあります。
Q: 両方のモデルで同じAPIコードを使えますか?
A: はい。両方ともOpenAI Responses APIで同じリクエスト形式を使います。model: "gpt-5.5"をmodel: "gpt-5.5-pro"に変えるだけです。詳細はGPT-5.5 APIガイドを参照してください。
Q: reasoning_effortは両モデルで同じように機能しますか?
A: パラメータは両方で同じ値を受け入れます。minimal、low、medium、highです。ただし、Proは推論能力が多いため、効果がより大きく出ることがあります。
Q: プロンプトキャッシュはProでどれくらい節約できますか?
A: Proでは、キャッシュ済み入力トークンが100万トークンあたり$30から$3に下がります。Instantでは$5から$0.50に下がります。安定した長いシステムプロンプトがあるなら、早い段階で効果が出ます。
Q: デフォルトでProを使って必要に応じてInstantへ下げるべきですか?
A: 通常は逆です。デフォルトでInstantを使い、検証に失敗したケースだけProへエスカレートします。この方が無駄な支出を抑えやすくなります。
Q: 高い推論労力でのProのレイテンシーはどれくらいですか?
A: highのProでは、最初のトークンまで8〜30秒かかることがあります。minimalのInstantでは200〜400ミリ秒のことがあります。同期UIではUX設計が必要です。
Q: バッチティアはリアルタイムティアと同じ回答を返しますか?
A: はい。バッチは配信時間による割引であり、モデルの切り替えではありません。同じモデルの重みを使い、価格が半分になります。
Q: いつモデル選択を見直すべきですか?
A: OpenAIのモデル更新や価格改定があるたびに見直します。回帰テストスイートを再実行し、損益分岐点を再計算してください。回帰テストスイートのワークフローを使うと、比較を繰り返し実行できます。




Top comments (0)