Akira

Posted on Apr 22 • Originally published at apidog.com

ChatGPT画像2.0の新機能とは？

OpenAIは2026年4月21日、新モデルgpt-image-2を搭載したChatGPT Images 2.0をリリースしました。プロンプトの理解、レイアウト計画、多言語テキストのシャープなレンダリング、最大2,000ピクセル幅・10枚同時生成・幅広いアスペクト比対応など、実務用途に直接使える進化を遂げています。

Apidogを今すぐ試す

開発者が特に注目すべきポイントは、ChatGPTのUI刷新ではなく、gpt-image-2がOpenAI API経由で利用でき、推論を考慮した「思考」モードやトークンベース課金、既存のエンドポイントパターンのまま本番環境で使える点です。

この記事では主に、以下を解説します：

gpt-image-2の新機能とgpt-image-1からの変更点
API利用時の費用と提供状況
APIリクエストの具体例と実装ポイント
Apidogでの実践的なテスト手順
現状の制限事項とFAQ

gpt-image-2とは？

gpt-image-2は、2026年4月21日リリースのOpenAI第2世代画像生成モデルです。APIではgpt-image-1を置き換え、ChatGPTのウェブ・モバイル両方で画像生成を担当します。

2024～2025年当時の画像生成APIで満足できなかった方にも再検討すべき進化点があります：

判読可能な多言語テキストが小さなUIラベル・ロゴ・キャプションでも鮮明。日本語・韓国語・中国語など非ラテン文字もOK。
ピクセル生成前の推論機能（thinkingモード）。構成計画やアイテム数検証ができ、図やラベルの誤りを抑制。
高解像度・多アスペクト比。最大2,000ピクセル、3:1や1:3のバナーや縦型ショート動画も直接生成。

OpenAIはこれを「クリエイティブなおもちゃ」から「視覚的なワークフローツール」への進化と位置付けています。雑誌レイアウト、インフォグラフィック、スライドテンプレート、漫画コマなど幅広い用途に対応。

gpt-image-1からの変更点

gpt-image-1からのAPI仕様上の違いをまとめます。

機能	gpt-image-1	gpt-image-2
最大解像度	1024ピクセル	長辺2,000ピクセル
アスペクト比	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
リクエストあたりの画像数	1	最大10枚（スタイル一貫）
テキストレンダリング	英語のみ、文字化けあり	CJK/インド系含む多言語
推論モード	なし	あり（`thinking`フラグ）
生成中のWeb検索	なし	あり（思考モード）

バッチ出力機能（最大10枚/リクエスト）は、同一プロンプトから統一デザインのバリエーションを一度に取得できるため、デザイン反復や製品画像セット生成に最適です。

提供状況と料金

ChatGPT Free：標準gpt-image-2モデル利用可
ChatGPT Plus/Pro/Business：思考モード・Web検索など追加機能
API開発者：gpt-image-2モデルIDを指定して両モード利用可（ChatGPTのロールアウト後に段階提供）

料金はOpenAI API料金ページで公開。

入力テキスト100万トークン：$5
出力テキスト100万トークン：$10
入力画像100万トークン：$8
出力画像100万トークン：$30

1024×1024画像1枚の標準レンダリングは約$0.21。思考モード利用時は追加推論トークン分が加算されるので、厳密なレイアウト指示の多い生成はコスト増となります。

APIの呼び出し

OpenAI APIでは従来通りimages/generationsエンドポイントを使用します。

基本的なcurl例：

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

推論モード（thinking）を有効化する例：

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

Python公式SDK例：

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # 実際はdecode()推奨

実装時の注意点：

thinkingモードはlow/medium/highで選択。レイアウト精度重視ならmediumが推奨。
バッチ出力（n > 1）は1回のリクエスト内のみスタイル一貫。10枚セットが必要な場合、1回のリクエストでまとめて生成すること。

Apidogでgpt-image-2をテストする

コマンドライン運用では画像プレビューやプロンプト管理が困難です。API専用クライアントを使うことで、反復テストやバリエーション比較が容易になります。

ApidogはOpenAI画像エンドポイントをファーストクラス扱い。

OpenAIのOpenAPI仕様をインポート
OPENAI_API_KEYを環境変数でセット
プロンプトを本文に貼り付けて送信

画像はbase64/URLでインライン表示、バリアント比較や並列テストも容易です。

具体的なワークフロー例：

Apidogコレクションにgpt-image-2リクエストを作成
thinking: "off"とthinking: "medium"の2環境を作成
同じプロンプトで両方実行、出力比較・保存
バナー/スライド/インフォグラフィックなど用途ごとにパラメータセットを分岐

生成後の画像URLをそのままCDNアップロードAPIへ連携するなど、curlでは難しい連鎖処理もApidogで自動化できます。

Apidogをダウンロードし、OpenAIキーを設定すれば5分でセットアップ完了です。

gpt-image-2が依然として苦手とする点

強力な進化を遂げた一方、以下の制限には注意が必要です。

クローズアップ顔写真や著名人の描写は不安定。プロンプトによっては拒否されるケースも多い。
正確なブランドロゴ・商標キャラクターの再現は不可。雰囲気用途限定。
長文テキスト（画像内の段落レベル）は崩れる。キャプション・ラベル向き。
セッション間の一貫性は保証されない。同じプロンプトでも日付をまたぐと結果が変わる。

詳細はThe DecoderやPetaPixelの記事も参考に。

The Decoderのレビュー

2026年の他の画像生成分野との比較

OpenAI以外にも、Google Nano Banana 2やオープンウェイトマルチモーダルモデルが台頭しています。API観点での比較・導入検討時は以下の記事が参考です。

Qwen 3.5 Omniの発表（Alibabaのマルチモーダル推進）
GLM 5V Turbo APIガイド（Zhipuの安価なビジョン-言語API）
Qwen 3.5 Omniの使用方法
Cursor Composer 2の分析（推論優先UIの解説）
Microsoft VibeVoiceガイド

推論精度・テキストの正確性・OpenAI連携重視ならgpt-image-2、

自己ホスティング・コスト重視・ライセンスに柔軟さが必要ならオープン系モデルが選択肢です。

よくある質問

gpt-image-2はChatGPTの無料ティアで使えますか？

はい。標準モードはすべてのChatGPTユーザーが利用可能。思考モードやWeb検索はPlus/Pro/Business限定。APIアクセスは開発者アカウント経由で、既存のレート制限が適用されます。

画像編集やインペインティングは対応？

本リリースはテキスト→画像生成に特化。編集系エンドポイントは旧パターンを踏襲しつつ新モデルIDで今後提供予定。インペインティング用途はgpt-image-2モデルページで要確認。

解像度とアスペクト比の上限は？

長辺2,000ピクセル、1:1、3:2、2:3、16:9、9:16、3:1、1:3対応。各種バナー、縦型動画、スクエア・横長クロップなどに最適。

gpt-image-2のAPIリクエストをすぐテストするには？

APIクライアント利用推奨。Apidogなら画像をインラインで確認でき、プロンプトやthinkingモード比較も容易。コマンドラインからの移行にはPostmanなしAPIテストガイドも併用可。

1枚の画像生成にかかる費用は？

1024×1024高品質・標準モードで約$0.21。思考モード利用時は追加推論トークン分が加算されるため、複雑プロンプトは単価上昇。詳細はOpenAI料金ページを参照。

生成時にモデルはWeb検索できますか？

はい。思考モードでのみ可能。図表やマップの正確性向上に貢献。標準モードではWeb検索は行われません。

DEV Community