OpenAIは2026年4月21日、新モデルgpt-image-2を搭載したChatGPT Images 2.0をリリースしました。プロンプトの理解、レイアウト計画、多言語テキストのシャープなレンダリング、最大2,000ピクセル幅・10枚同時生成・幅広いアスペクト比対応など、実務用途に直接使える進化を遂げています。
開発者が特に注目すべきポイントは、ChatGPTのUI刷新ではなく、gpt-image-2がOpenAI API経由で利用でき、推論を考慮した「思考」モードやトークンベース課金、既存のエンドポイントパターンのまま本番環境で使える点です。
この記事では主に、以下を解説します:
- gpt-image-2の新機能とgpt-image-1からの変更点
- API利用時の費用と提供状況
- APIリクエストの具体例と実装ポイント
- Apidogでの実践的なテスト手順
- 現状の制限事項とFAQ
gpt-image-2とは?
gpt-image-2は、2026年4月21日リリースのOpenAI第2世代画像生成モデルです。APIではgpt-image-1を置き換え、ChatGPTのウェブ・モバイル両方で画像生成を担当します。
2024~2025年当時の画像生成APIで満足できなかった方にも再検討すべき進化点があります:
- 判読可能な多言語テキストが小さなUIラベル・ロゴ・キャプションでも鮮明。日本語・韓国語・中国語など非ラテン文字もOK。
- ピクセル生成前の推論機能(thinkingモード)。構成計画やアイテム数検証ができ、図やラベルの誤りを抑制。
- 高解像度・多アスペクト比。最大2,000ピクセル、3:1や1:3のバナーや縦型ショート動画も直接生成。
OpenAIはこれを「クリエイティブなおもちゃ」から「視覚的なワークフローツール」への進化と位置付けています。雑誌レイアウト、インフォグラフィック、スライドテンプレート、漫画コマなど幅広い用途に対応。
gpt-image-1からの変更点
gpt-image-1からのAPI仕様上の違いをまとめます。
| 機能 | gpt-image-1 | gpt-image-2 |
|---|---|---|
| 最大解像度 | 1024ピクセル | 長辺2,000ピクセル |
| アスペクト比 | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| リクエストあたりの画像数 | 1 | 最大10枚(スタイル一貫) |
| テキストレンダリング | 英語のみ、文字化けあり | CJK/インド系含む多言語 |
| 推論モード | なし | あり(thinkingフラグ) |
| 生成中のWeb検索 | なし | あり(思考モード) |
バッチ出力機能(最大10枚/リクエスト)は、同一プロンプトから統一デザインのバリエーションを一度に取得できるため、デザイン反復や製品画像セット生成に最適です。
提供状況と料金
- ChatGPT Free:標準gpt-image-2モデル利用可
- ChatGPT Plus/Pro/Business:思考モード・Web検索など追加機能
- API開発者:gpt-image-2モデルIDを指定して両モード利用可(ChatGPTのロールアウト後に段階提供)
料金はOpenAI API料金ページで公開。
- 入力テキスト100万トークン:$5
- 出力テキスト100万トークン:$10
- 入力画像100万トークン:$8
- 出力画像100万トークン:$30
1024×1024画像1枚の標準レンダリングは約$0.21。思考モード利用時は追加推論トークン分が加算されるので、厳密なレイアウト指示の多い生成はコスト増となります。
APIの呼び出し
OpenAI APIでは従来通りimages/generationsエンドポイントを使用します。
基本的なcurl例:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
推論モード(thinking)を有効化する例:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
Python公式SDK例:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # 実際はdecode()推奨
実装時の注意点:
-
thinkingモードは
low/medium/highで選択。レイアウト精度重視ならmediumが推奨。 - バッチ出力(n > 1)は1回のリクエスト内のみスタイル一貫。10枚セットが必要な場合、1回のリクエストでまとめて生成すること。
Apidogでgpt-image-2をテストする
コマンドライン運用では画像プレビューやプロンプト管理が困難です。API専用クライアントを使うことで、反復テストやバリエーション比較が容易になります。
ApidogはOpenAI画像エンドポイントをファーストクラス扱い。
- OpenAIのOpenAPI仕様をインポート
-
OPENAI_API_KEYを環境変数でセット - プロンプトを本文に貼り付けて送信
画像はbase64/URLでインライン表示、バリアント比較や並列テストも容易です。
具体的なワークフロー例:
- Apidogコレクションに
gpt-image-2リクエストを作成 -
thinking: "off"とthinking: "medium"の2環境を作成 - 同じプロンプトで両方実行、出力比較・保存
- バナー/スライド/インフォグラフィックなど用途ごとにパラメータセットを分岐
生成後の画像URLをそのままCDNアップロードAPIへ連携するなど、curlでは難しい連鎖処理もApidogで自動化できます。
Apidogをダウンロードし、OpenAIキーを設定すれば5分でセットアップ完了です。
gpt-image-2が依然として苦手とする点
強力な進化を遂げた一方、以下の制限には注意が必要です。
- クローズアップ顔写真や著名人の描写は不安定。プロンプトによっては拒否されるケースも多い。
- 正確なブランドロゴ・商標キャラクターの再現は不可。雰囲気用途限定。
- 長文テキスト(画像内の段落レベル)は崩れる。キャプション・ラベル向き。
- セッション間の一貫性は保証されない。同じプロンプトでも日付をまたぐと結果が変わる。
詳細はThe DecoderやPetaPixelの記事も参考に。
The Decoderのレビュー
2026年の他の画像生成分野との比較
OpenAI以外にも、Google Nano Banana 2やオープンウェイトマルチモーダルモデルが台頭しています。API観点での比較・導入検討時は以下の記事が参考です。
- Qwen 3.5 Omniの発表(Alibabaのマルチモーダル推進)
- GLM 5V Turbo APIガイド(Zhipuの安価なビジョン-言語API)
- Qwen 3.5 Omniの使用方法
- Cursor Composer 2の分析(推論優先UIの解説)
- Microsoft VibeVoiceガイド
推論精度・テキストの正確性・OpenAI連携重視ならgpt-image-2、
自己ホスティング・コスト重視・ライセンスに柔軟さが必要ならオープン系モデルが選択肢です。
よくある質問
gpt-image-2はChatGPTの無料ティアで使えますか?
はい。標準モードはすべてのChatGPTユーザーが利用可能。思考モードやWeb検索はPlus/Pro/Business限定。APIアクセスは開発者アカウント経由で、既存のレート制限が適用されます。
画像編集やインペインティングは対応?
本リリースはテキスト→画像生成に特化。編集系エンドポイントは旧パターンを踏襲しつつ新モデルIDで今後提供予定。インペインティング用途はgpt-image-2モデルページで要確認。
解像度とアスペクト比の上限は?
長辺2,000ピクセル、1:1、3:2、2:3、16:9、9:16、3:1、1:3対応。各種バナー、縦型動画、スクエア・横長クロップなどに最適。
gpt-image-2のAPIリクエストをすぐテストするには?
APIクライアント利用推奨。Apidogなら画像をインラインで確認でき、プロンプトやthinkingモード比較も容易。コマンドラインからの移行にはPostmanなしAPIテストガイドも併用可。
1枚の画像生成にかかる費用は?
1024×1024高品質・標準モードで約$0.21。思考モード利用時は追加推論トークン分が加算されるため、複雑プロンプトは単価上昇。詳細はOpenAI料金ページを参照。
生成時にモデルはWeb検索できますか?
はい。思考モードでのみ可能。図表やマップの正確性向上に貢献。標準モードではWeb検索は行われません。



Top comments (0)