OpenAIは2026年6月26日、GPT-5.6 Solを発表しました。Terminal-Benchで最先端、Agent's Last Examのコードモードで50%超、ExploitBenchでは少ないトークンで競合水準に到達したと報告されています。ただし重要なのは、現時点で開発者が自由に実行できないことです。Solは、米国政府が個別承認した約20のパートナー向けに、OpenAI APIとCodex経由の限定プレビューとして提供されています。ChatGPTには含まれず、一般開発者向けのサインアップもありません。
この記事では、GPT-5.6 Solのベンチマークを「今すぐ移行すべきか、待つべきか」という実装判断に落とし込みます。各ベンチマークが何を測っているのか、GPT-5.5やClaude Mythos 5とどう違うのか、そして現在のAPI開発・評価フローで何を準備すべきかを整理します。ここで扱う数値はOpenAIの説明と初期報道に基づくものであり、独自検証ではありません。
要約
- GPT-5.6 Solは限定プレビュー中です。OpenAI APIとCodexのみで、ChatGPTでは使えません。
- 利用対象は約20の政府承認パートナーに限定されています。OpenAIは一般提供を「数週間以内」としています。
- 報告値は強力ですが、現時点では独立検証済みの実測値ではなく、OpenAIの主張として扱うべきです。
- 注目すべき領域は、エージェント的コーディング、長時間のターミナル操作、防御的セキュリティ評価です。
- 今すぐ本番でモデルが必要なら、Solを待つより、現在利用できるモデルで評価ハーネスを作る方が実務的です。
スコアを読む前に確認すべきこと
ベンチマークは「モデルが何をできるか」を示しますが、「あなたが今それを使えるか」は示しません。GPT-5.6 Solでは、この2つを分けて考える必要があります。
このリリースは、新しいAIモデルのベンチマークと評価を定める2026年6月2日の大統領令に基づき、米国政府によって制限されています。OpenAIは一時的な措置としてこれに同意しています。MacRumorsが引用したOpenAIの説明では、「数週間以内のより広範な提供に向けて、これが最も強力な道であると信じているため、この短期的な措置をとっています」とされています。
つまり、現時点で開発チームができることは次の3つです。
- ベンチマークの意味を理解する
- 既存モデルで自社タスクの評価セットを作る
- Solが公開されたら同じ評価セットで差し替え検証する
Solの位置づけや制限の詳細は、GPT-5.6 Sol解説で整理されています。なお、正確なAPIモデル識別子はまだ公開されていないため、現時点でコードに接続することはできません。
Terminal-Bench 2.1: エージェント的なターミナル作業の指標
Terminal-Benchは、モデルがターミナル上で現実的な作業をどれだけ完了できるかを測るベンチマークです。対象は、ファイル編集、コマンド実行、ツール連携、エラー復旧などです。
これは単なるQ&Aではなく、次のようなタスクに近い評価です。
1. リポジトリを確認する
2. 失敗しているテストを特定する
3. ソースコードを修正する
4. テストを再実行する
5. エラーが残っていれば追加修正する
OpenAIおよび初期報道によると、Terminal-Bench 2.1では次のような数値が報告されています。
| モデル | 報告スコア |
|---|---|
| GPT-5.6 Sol Ultra | 約91.91% |
| GPT-5.6 Sol | 約88.8% |
| Claude Mythos 5 | 約88% |
| GPT-5.5 | 約83.4% |
読み方として重要なのは、Sol Ultraのスコアです。OpenAIによると、Ultraモードは「サブエージェントを活用して複雑な作業を加速させる」構成です。つまり、単一の推論呼び出しが強くなったというより、複数の補助エージェントを使って作業を分担する設計と考えるべきです。
実装判断では、次のように分けるとよいです。
- 単発のコード生成やレビューが中心なら、差は限定的かもしれません。
- 長時間のタスク実行、テスト修正、CI失敗の自動解決が中心なら、Solの公開を待つ価値があります。
- ただし、今すぐ比較するなら、利用可能なモデルで同じタスクセットを回すべきです。
現在実行できるモデルの比較には、Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.5比較が参考になります。
Agent’s Last Exam: 長時間タスク完了能力を見る
Agent's Last Examは、モデルが人間の介入なしに計画を立て、ツールを使い、複数ステップのタスクを完了できるかを評価するベンチマークです。コードモードは、特にソフトウェア開発作業に焦点を当てています。
初期報道では、GPT-5.6 Solはコードモードで約50.9%を記録し、50%を超えた唯一のモデルとされています。
この数値を実務に置き換えると、評価すべきなのは次のようなタスクです。
- 仕様を読んで実装方針を立てる
- 既存コードを探索する
- 変更対象ファイルを判断する
- 実装する
- テストを追加または修正する
- 実行結果に応じて再修正する
注意点は2つあります。
- 50.9%は独自検証ではなく、初期報道ベースの数値です。
- 「唯一のモデル」という表現は、他社モデルの更新で短期間に変わる可能性があります。
したがって、判断基準はシンプルです。
- あなたのワークロードが長時間の自律コーディングなら、Solをウォッチする価値があります。
- 短いコード補完、関数生成、チャット形式の質問が中心なら、既存モデルでも十分な可能性があります。
ExploitBench: スコアよりトークン効率を見る
ExploitBenchおよびExploitGymは、サイバーセキュリティ関連の能力を評価するベンチマークです。Solは、ソフトウェア脆弱性の発見や修正説明に調整されている一方で、完全なエクスプロイトチェーンの構築には抵抗する設計とされています。
重要なのは、単純なスコアではなく効率です。
初期報道では、SolはExploitBenchでAnthropicのMythos Previewと競合する水準に達しつつ、出力トークンは約3分の1だったとされています。GeneBench v1でも、GPT-5.5より少ないトークンで改善が報告されています。
トークン効率は、API利用コストに直結します。たとえば同じ品質の修正案を得るために、出力トークンが3分の1で済むなら、100万トークンあたりの単価だけでは実質コストを判断できません。
開発チームでは、次のように評価すると実用的です。
評価対象:
- 脆弱性レポートの要約
- 修正パッチ案の生成
- セキュリティレビューコメントの生成
- 誤検知の分類
測定項目:
- 正答率
- 修正の安全性
- 出力トークン数
- レイテンシ
- レビュー担当者の手戻り回数
サイバー関連の数値を評価する前に、OpenAIデプロイメント安全システムカードも確認しておくべきです。
自社ベースラインとの比較方法
Solのベンチマークを読むだけでは、移行判断はできません。必要なのは、自社タスクでの再現可能な評価です。
最低限、次のような評価セットを作ります。
evals/
coding/
fix-failing-test.md
refactor-api-client.md
add-validation.md
security/
review-vulnerability-report.md
suggest-safe-fix.md
docs/
summarize-api-change.md
generate-release-note.md
各ケースでは、入力、期待する観点、合格条件を明確にします。
# 評価ケース: APIクライアントのリトライ処理追加
## 入力
既存のHTTPクライアント実装と、失敗しているテストログ。
## 期待する出力
- 429と5xxでリトライする
- 最大試行回数を超えたら例外を返す
- 既存の公開APIを壊さない
- テスト追加方針を説明する
## 合格条件
- 実装方針が妥当
- 破壊的変更がない
- セキュリティ上危険な提案がない
- 出力トークンが許容範囲内
Solがまだ使えない間は、GPT-5.5、Claude Mythos 5、Geminiなど、現在利用できるモデルでこの評価セットを回します。Solが公開されたら、同じ入力で差し替えて比較します。
判断: 待つか、移行するか
結論はワークロードで分かれます。
待つべきケース
次に該当するなら、Solの一般提供を待つ価値があります。
- エージェント的コーディングが主要ワークロード
- 長時間のターミナル作業を自動化したい
- CI失敗の調査・修正をモデルに任せたい
- 防御的セキュリティレビューを高頻度で実行する
- 数週間待てる
- 数%の成功率改善やトークン削減がコストに効く
Terminal-Bench、Agent's Last Exam、ExploitBenchの報告値は、まさにこの領域に集中しています。
待たなくてよいケース
次に該当するなら、今すぐ利用可能なモデルへ進むべきです。
- 本番導入が今必要
- 短いコード生成やレビューが中心
- チャット、要約、分類が中心
- モデルIDやAPI仕様が未公開のモデルを待てない
- 現行モデルで十分な品質が出ている
Solはまだ一般開発者が使えず、モデルIDも公開されていません。ロックされたモデルを待って開発を止めるより、現在使えるモデルで評価・運用を進める方が現実的です。
現在利用できる候補は、今日利用できるフロンティアモデルのまとめで確認できます。
もう一つの注意点として、一般提供が始まっても対象はSolだけではなく、TerraやLunaを含むGPT-5.6ライン全体になる可能性があります。TerraはGPT-5.5に近い性能で、より安価な階層として位置づけられています。多くのチームでは、最終的にSolではなく、コストと性能のバランスがよい階層を選ぶことになるはずです。
待っている間にApidogで準備する
Solはまだテストできません。しかし、既存モデルのAPIはテストできます。OpenAI互換APIや標準HTTP APIを使うモデルであれば、Apidogでリクエストを作成し、レスポンスを比較できます。
実務では、次の流れで準備します。
- モデルごとにAPIリクエストを作る
- 同じプロンプトと入力データを使う
- レスポンス内容を保存する
- トークン数、品質、レイテンシを比較する
- Sol公開後にエンドポイントとモデルIDだけ差し替える
たとえば、OpenAI互換APIなら次のようなリクエストを評価対象にできます。
curl https://api.example.com/v1/chat/completions \
-H "Authorization: Bearer $API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "current-frontier-model",
"messages": [
{
"role": "system",
"content": "あなたはソフトウェア開発タスクを支援するアシスタントです。"
},
{
"role": "user",
"content": "次のテスト失敗ログを読み、修正方針を提案してください。"
}
]
}'
Apidogでは、このようなリクエストを保存し、モデルごとのエンドポイント差し替え、レスポンス確認、ドキュメント化に使えます。Solが公開された日に新しいツールを用意する必要はありません。Apidogをダウンロードして、今使えるモデルで評価ハーネスを作っておくのが実装面では最も安全です。
結論
GPT-5.6 Solのベンチマークは、エージェント的コーディング、長時間のターミナル作業、防御的セキュリティ評価で特に強力に見えます。ただし現時点では、一般開発者が使えない限定プレビューであり、数値も独立検証済みではありません。
待つべきなのは、Solが強いとされる領域が自社の主要ワークロードで、数週間の待機が許容できるチームです。それ以外の場合は、今すぐ使えるモデルで評価と実装を進め、Solが公開された時点で同じ評価ハーネスに差し替えるのが現実的です。
今すぐ使えるモデルに対してApidogで評価ハーネスを構築し、Solが利用可能になった日にすぐ比較できる状態にしておきましょう。


Top comments (0)