OpenAI는 2026년 4월 21일, 새로운 gpt-image-2 모델로 구동되는 ChatGPT 이미지 2.0을 출시했습니다. 이 모델은 사용자의 프롬프트를 읽고, 레이아웃을 계획하며, 선명한 다국어 텍스트를 렌더링하고, 한 번에 최대 10개의 이미지를 생성할 수 있습니다. 이 모든 것은 최대 2,000픽셀 너비로, 기존 이미지 모델이 지원하지 않던 다양한 화면 비율로 가능합니다.
개발자에게 중요한 변화는 ChatGPT UI가 아니라 gpt-image-2가 OpenAI API를 통해 사고(thinking) 모드, 토큰 기반 가격 체계, 그리고 이전과 동일한 엔드포인트 패턴으로 제공된다는 점입니다.
이 글에서는 변경점, API 비용, API 호출 방법, 그리고 일회성 스크립트 없이 Apidog으로 실전 테스트하는 방법까지 빠르게 정리합니다. 과거 이미지 API의 텍스트 왜곡/해상도 한계로 포기했던 분이라면 이번 버전부터 다시 시작해 보세요.
gpt-image-2란 무엇인가요?
gpt-image-2는 OpenAI의 2세대 이미지 생성기 모델 ID입니다. 2026년 4월 21일 ChatGPT 이미지 2.0 제품과 함께 출시되었으며, 이전 gpt-image-1을 대체합니다. 웹과 모바일에서 모두 이미지 생성을 지원합니다.
2024~2025년에 OpenAI 이미지 생성을 마지막으로 테스트했다면, 이번에 다시 써봐야 할 세 가지 실질적 이유가 있습니다:
- 프롬프트 내 명확한 텍스트: 작은 UI 라벨, 로고, 캡션, CJK(일본어·한국어·중국어) 및 인도어 등 비라틴 스크립트까지 바로 사용할 만큼 선명하게 생성됩니다.
-
픽셀 전 추론(thinking):
thinking모드로, 렌더링 전 추가 컴퓨팅을 통해 구성·항목 개수·제약 조건을 체크합니다. 다이어그램 등에서 잘못된 객체 개수/레이블로 재시도하는 일이 줄어듭니다. - 더 높은 해상도와 다양한 화면비: 최대 2,000픽셀(긴 쪽)까지, 3:1, 1:3 등 극단적 화면비도 지원해 업스케일 과정 없이 배너, 슬라이드, 세로형 숏츠 생성이 가능합니다.
OpenAI는 이번 세대를 "창의적 장난감"에서 "시각적 워크플로우 도구"로 도약했다고 설명합니다. 잡지 스프레드, 인포그래픽, 슬라이드, 만화 패널 등 실용 예시가 늘어났습니다.
gpt-image-1 대비 변경된 점
이전 OpenAI 이미지 API를 사용했다면, 아래 표에서 코드 레벨의 주요 차이점을 확인하세요.
| 기능 | gpt-image-1 | gpt-image-2 |
|---|---|---|
| 최대 해상도 | 1024 px | 긴 쪽이 2,000 px |
| 화면 비율 | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| 요청당 이미지 수 | 1 | 스타일 일관성을 유지하며 최대 10개 |
| 텍스트 렌더링 | 영어만 가능, 종종 깨짐 | CJK 및 인도어 스크립트 포함 다국어 지원 |
| 추론 모드 | 아니요 | 예 (thinking 플래그) |
| 생성 중 웹 검색 | 아니요 | 예, 사고 모드에서 |
일괄 모드는 특히 유용합니다. 하나의 프롬프트로 구성·팔레트가 일치하는 10개 변형을 반환할 수 있어, 반복 디자인이나 제품 페이지 세트의 일관성 있는 이미지 생성에 적합합니다.
가용성 및 가격
출시는 단계적으로 진행됩니다.
-
ChatGPT 무료: 표준
gpt-image-2사용 - ChatGPT Plus/Pro/Business: 사고 모드, 더 긴 추론, 생성 중 웹 검색 가능
-
API 개발자:
gpt-image-2모델 ID로 두 가지 모드 모두 사용 가능
OpenAI API 가격 페이지 기준, 가격은 토큰 단위로 계산됩니다:
- 입력 텍스트 토큰 100만 개당 $5
- 출력 텍스트 토큰 100만 개당 $10
- 입력 이미지 토큰 100만 개당 $8
- 출력 이미지 토큰 100만 개당 $30
표준 1024×1024 고화질 이미지 한 장 기준 약 $0.21로, 이전 모델 대비 약 60% 비쌉니다. 사고 모드는 추가 추론 토큰이 청구되니, 복잡한 다이어그램 등은 예산을 토큰 단위로 따져야 합니다.
API 호출
엔드포인트 패턴은 동일하게 images/generations를 사용합니다. 최소 구성 예시는 아래와 같습니다.
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "API 테스팅 플랫폼을 위한 깔끔한 제품 히어로 이미지, 어두운 배경, 부드러운 시안색 조명, JSON 응답을 보여주는 노트북, 선명하고 읽기 쉬운 작은 글씨의 UI 라벨",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
추론(thinking) 모드를 활성화하려면 thinking 파라미터를 추가하세요.
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "PKCE를 사용하는 OAuth 2.1 인가 코드 흐름을 설명하는 4패널 인포그래픽. 모든 화살표에 영어와 일본어로 라벨을 붙이시오.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
응답은 response_format에 따라 Base64 혹은 URL로 반환됩니다. 스키마는 gpt-image-1과 동일하니, 기존 SDK 래퍼는 모델 ID만 교체하면 작동합니다.
Python 공식 SDK 예제:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="REST 클라이언트를 위한 미니멀리스트 대시보드 UI 목업, 문장 형식 레이블, 코너에 대기 시간 차트.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # 실제에서는 decode() 사용
테스트 시 유용한 팁:
- 사고 모드는
low,medium,high단계가 있습니다. 차트·표·숫자가 중요한 이미지는medium이 적합합니다. - 일괄 출력(
n > 1)은 같은 요청 내에서는 스타일이 일치합니다. 여러 호출에 나눠 요청하면 일관성이 깨집니다. 일치 세트가 필요하면 한 번에 여러 개 생성하세요.
Apidog로 gpt-image-2 테스트하기
명령줄 기반 반복 작업은 이미지 모델에는 비효율적입니다. 결과 미리보기, 프롬프트 교체, 버전 관리가 어렵기 때문입니다. 전용 API 클라이언트가 필요하다면, 인라인 이미지 렌더링 등 이미지 응답에 특화된 Apidog을 추천합니다.
Apidog은 OpenAI 이미지 엔드포인트를 바로 지원합니다.
- OpenAI OpenAPI 스펙을 가져오기
-
OPENAI_API_KEY환경 변수 설정 - 프롬프트 본문에 입력 후 Send 클릭
이미지 응답은 Base64/URL 형식 모두 인라인 미리보기됩니다. 요청을 변형(Variant)으로 분기해 화면비·품질·사고 모드 차이를 나란히 비교할 수 있습니다.
실전 워크플로우:
- Apidog 컬렉션에
gpt-image-2요청 생성 - 두 환경 저장:
thinking: "off",thinking: "medium" - 동일 프롬프트로 두 환경 실행, 결과 비교 후 프롬프트 라이브러리에 저장
- 배너/슬라이드/인포그래픽 등 자산 유형별 컬렉션 분기, 각 유형에 맞는 매개변수 세트 구성
이미지 생성 후, 해당 URL을 같은 Apidog 테스트 실행 내에서 CDN 업로드 엔드포인트로 연동할 수도 있습니다. 이는 curl 등 스크립트에서는 어렵습니다.
Apidog 다운로드 후 OpenAI 키 연결, 5분 내 설정 완료 가능합니다.
gpt-image-2가 여전히 어려움을 겪는 부분
강력한 업데이트지만, 한계점도 명확합니다.
- 사실적 얼굴 근접 촬영: 여전히 불안정. 공인 프롬프트는 신원 보호 장치로 인해 종종 거부됩니다.
- 정확한 브랜드 자산: 공식 로고, 상표 캐릭터 등은 신뢰할 수 없습니다. 무드/분위기 용도로만 사용하세요.
- 긴 형식의 텍스트 블록: 이미지 내 전체 단락 등 수백 자 이상은 여전히 깨집니다. 캡션, 제목, 라벨 위주로 활용하세요.
- 세션 간 일관성: 한 번의 호출 내에서는 일치하지만, 시간차 호출이나 시드 고정에도 동일한 결과가 나오지 않습니다.
실제 사용 리뷰는 디코더 리뷰에서 확인 가능합니다.
2026년 이미지 생성 분야의 다른 모델들과 비교
OpenAI 외에도 Google, Alibaba 등에서 추론+이미지 결합 모델을 출시하고 있습니다.
관련 심층 분석:
- Qwen 3.5 Omni 발표: 이미지 입력 및 생성 포함 알리바바 다중모달 전략
- GLM 5V Turbo API 가이드: Zhipu 비전-언어 API (텍스트 충실도는 낮음)
- Qwen 3.5 Omni 사용법: 실무 가이드
- Cursor Composer 2 분석: 추론 우선 AI 도구 UX 사례
- Microsoft VibeVoice 가이드: 최근 OpenAI 관련 출시
텍스트 정확도·구성 추론·OpenAI 생태계 통합이 중요하면 gpt-image-2를, 비용 또는 상업적 라이선스가 더 중요하면 오픈소스 모델을 선택하세요.
자주 묻는 질문
gpt-image-2는 무료 ChatGPT에서도 쓸 수 있나요?
네, 표준 모드는 무료 계정에서도 사용 가능합니다. 사고 모드 및 확장 기능은 Plus/Pro/Business에 제공됩니다. API 접근은 별도 계정으로 관리됩니다.
gpt-image-2는 이미지 편집/인페인팅을 지원하나요?
이번 출시는 텍스트-이미지 생성(일괄/사고 모드)에 초점을 맞춥니다. 이미지+마스크 등 편집 엔드포인트는 별도 모델 ID로 제공될 예정이니, 공식 모델 페이지를 참고하세요.
지원 해상도와 화면비는?
긴 쪽 최대 2000픽셀, 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 지원. 별도 업스케일 과정 없이 다양한 자산에 활용할 수 있습니다.
API로 이미지 하나 생성 시 비용은 얼마인가요?
표준 모드 1024×1024 고화질 기준 약 $0.21. 사고 모드는 추가 추론 토큰 만큼 더 청구됩니다. 토큰 단가를 참고하세요.
모델이 생성 중 웹 검색을 활용할 수 있나요?
네, 사고 모드에서만 가능합니다. 다이어그램 등에서 실제 데이터·참조 이미지를 가져와 정확도가 향상됩니다.
gpt-image-2 요청을 빠르게 테스트하려면?
전용 API 클라이언트인 Apidog을 사용해 보세요. 이미지 응답 인라인 렌더링, 프롬프트 변수 저장, 사고 모드 비교 등 실험에 최적화되어 있습니다.
명령줄 기반 워크플로우를 쓰던 팀은 Postman 없이 API 테스트하는 방법도 참고하세요.



Top comments (0)