OpenAI đã phát hành ChatGPT Images 2.0 vào ngày 21 tháng 4 năm 2026, với mô hình gpt-image-2 mới. Mô hình này đọc prompt, lập kế hoạch bố cục, hiển thị văn bản đa ngôn ngữ sắc nét và tạo tối đa mười hình ảnh/lần với chiều rộng lên đến 2.000px và các tỷ lệ khung hình mà mô hình cũ chưa từng hỗ trợ.
Điểm quan trọng cho developer là gpt-image-2 đã được mở qua API OpenAI với chế độ "tư duy" (thinking), tính phí theo token và sử dụng cùng endpoint như trước. Bài này tập trung vào thay đổi, chi phí, cách gọi API mới nhất, và cách test nhanh qua Apidog mà không cần tự viết script thử nghiệm. Nếu bạn từng bỏ qua API hình ảnh vì lỗi text hay giới hạn độ phân giải, giờ là lúc thử lại.
gpt-image-2 là gì?
gpt-image-2 là ID mô hình cho trình tạo hình ảnh thế hệ thứ hai của OpenAI, phát hành cùng ChatGPT Images 2.0 (21/4/2026). Nó thay thế gpt-image-1 ở phía API, dùng cho cả ChatGPT web/mobile lẫn API.
Ba điểm thực tế nổi bật nếu bạn từng thử image API của OpenAI từ 2024-2025:
- Văn bản rõ nét, đa ngôn ngữ: Logo, nhãn UI nhỏ, chú thích, ký tự không phải Latin (Nhật, Hàn, Trung, Hindi, Bengali) đã đủ rõ để dùng trực tiếp không cần sửa tay.
-
Lập luận trước khi tạo pixel: Chế độ
thinkingtăng compute cho lập kế hoạch bố cục, đếm đối tượng, check constraints trước khi vẽ. Giảm số prompt lặp lại do sai số đếm hay nhãn. - Độ phân giải & tỉ lệ linh hoạt: Lên đến 2.000px ở cạnh dài, hỗ trợ 3:1, 1:3, 16:9, 9:16... Phù hợp làm banner, cover slide, video dọc, không cần upscaling thêm.
OpenAI định vị đây là bước chuyển từ "công cụ sáng tạo" sang "tool workflow trực quan": làm page tạp chí, infographic, template slide, thậm chí bảng truyện tranh/manga.
Điều gì đã thay đổi so với gpt-image-1
Nếu bạn đã tích hợp endpoint image cũ, dưới đây là các khác biệt kỹ thuật chính:
| Tính năng | gpt-image-1 | gpt-image-2 |
|---|---|---|
| Độ phân giải tối đa | 1024 px | 2.000 px ở cạnh dài |
| Tỷ lệ khung hình | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| Số lượng hình ảnh/yêu cầu | 1 | Lên tới 10, giữ phong cách |
| Văn bản hiển thị | Chỉ tiếng Anh, dễ lỗi | Đa ngôn ngữ, gồm CJK & Indic |
| Chế độ lập luận | Không | Có (thinking flag) |
| Tìm kiếm web khi tạo | Không | Có (ở chế độ tư duy) |
Chế độ tạo batch (nhiều ảnh/lần) là nâng cấp hữu ích: một prompt trả về nhiều biến thể cùng layout, palette – phù hợp cho designer, team sản phẩm cần ảnh hero đồng nhất cho nhiều page.
Khả dụng & định giá
Phân tầng triển khai:
-
ChatGPT Free: Dùng
gpt-image-2tiêu chuẩn. - ChatGPT Plus/Pro/Business: Có chế độ tư duy, lập luận lâu hơn, tìm kiếm web lúc tạo.
-
API Developer: Truy cập đủ chế độ qua ID
gpt-image-2. Đã triển khai dần sau khi ChatGPT ra mắt.
Pricing (tham khảo bảng giá OpenAI):
- $5 / triệu token text input
- $10 / triệu token text output
- $8 / triệu token image input
- $30 / triệu token image output
Chi phí hình ảnh 1024×1024 chất lượng cao khoảng $0.21/ảnh, cao hơn ~60% so với đời trước – chủ yếu vì canvas lớn & bước reasoning.
Lưu ý: Chế độ tư duy tính thêm token reasoning → prompt càng phức tạp (layout, điều kiện) càng tốn phí. Dự phòng chi phí theo loại prompt, không mặc định fix giá/ảnh.
Gọi API
Endpoint không đổi: images/generations. Ví dụ request cơ bản:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
Để bật reasoning, thêm param thinking:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
Response trả về base64 hoặc URL tùy response_format, schema không đổi so với gpt-image-1; SDK wrappers cũ chỉ cần sửa model ID.
Python SDK ví dụ:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # Nên decode() trong thực tế
Lưu ý thực tiễn:
- Chế độ tư duy có 3 mức (
low,medium,high); đổi latency lấy độ chính xác layout. Với hình technical, schema, infographic nên dùngmediumhoặc cao hơn. - Output batch (
n > 1) giữ style nhất quán trong 1 lần gọi, nhưng không giữa nhiều lần gọi khác nhau. Muốn bộ 10 ảnh khớp nhau: gọi 1 lần vớin:10.
Kiểm tra gpt-image-2 với Apidog
Việc lặp nhanh trên image model qua terminal là bất tiện: không preview, khó chỉnh prompt và so sánh kết quả. Sử dụng API client chuyên dụng sẽ tối ưu hơn. Nếu bạn quen Postman hoặc các REST client khác, hãy thử giải pháp chuyên cho image API.
Apidog nhận diện endpoint hình ảnh OpenAI như một yêu cầu chính. Chỉ cần:
- Import OpenAPI spec của OpenAI
- Đặt biến môi trường
OPENAI_API_KEY - Paste prompt vào body, gửi request
Kết quả ảnh sẽ hiển thị trực tiếp (base64/URL). Bạn có thể phân nhánh request để so sánh tỉ lệ, chất lượng, chế độ thinking cạnh nhau.
Quy trình mẫu với Apidog:
- Tạo request
gpt-image-2trong một collection. - Lưu hai environment: một với
thinking: "off", một vớithinking: "medium". - Chạy cùng prompt qua cả hai, so sánh output, giữ lại kết quả tốt.
- Phân nhánh collection cho từng loại asset (banner, slide cover, infographic) với param riêng.
Bạn cũng có thể chain call: tạo image rồi tự động post URL lên CDN trong cùng một lần chạy thử nghiệm – điều mà curl script không làm được.
Nếu bạn từng test image API bằng client HTTP thông thường, hãy thử tải Apidog và kết nối với OpenAI key; setup dưới 5 phút.
Những điểm gpt-image-2 vẫn còn gặp khó khăn
Dù cải tiến mạnh, vẫn còn giới hạn:
- Chân dung cận cảnh thực tế vẫn dễ lỗi (đặc biệt với người nổi tiếng). Nhiều prompt dạng này bị chặn bởi OpenAI.
- Logo & tài sản thương hiệu: không đảm bảo chính xác tuyệt đối. Nên dùng cho mood, demo – không dùng làm final brand asset.
- Text dài (paragraph trong 1 ảnh): bị vỡ layout sau vài trăm ký tự. Thích hợp caption, heading, label – không dành cho in ảnh bài viết.
- Tính nhất quán qua phiên: batch giữ style trong 1 lần call, nhưng qua các lần khác nhau (khác ngày, khác seed) sẽ lệch.
Các nguồn như The Decoder, PetaPixel cũng xác nhận những hạn chế này. Xem bài đánh giá của The Decoder để hiểu rõ hơn.
So sánh với các tool tạo hình ảnh khác (2026)
OpenAI không độc quyền về image reasoning. Google Nano Banana 2 đã ra mắt trước đó; một số model mã nguồn mở cũng đã rút ngắn khoảng cách về khả năng hiển thị text.
Một số phân tích chuyên sâu liên quan (nên đọc khi so sánh API):
- Thông báo về Qwen 3.5 Omni: Multimodal của Alibaba, có image input & generation.
- Hướng dẫn API GLM 5V Turbo: API language-vision của Zhipu, rẻ hơn nhưng trade-off text accuracy.
- Cách sử dụng Qwen 3.5 Omni: Hướng dẫn thực hành.
- Phân tích Cursor Composer 2: AI ưu tiên reasoning, tương tự ChatGPT Images 2.0.
- Hướng dẫn Microsoft VibeVoice: Sản phẩm liên quan OpenAI.
Nên dùng gpt-image-2 khi: Cần độ chính xác text, reasoning layout, tích hợp chặt với hệ sinh thái OpenAI.
Nên dùng model mã nguồn mở khi: Muốn tự host, giá/ảnh rẻ hơn, hoặc cần license tự do cho commercial.
Câu hỏi thường gặp
gpt-image-2 có khả dụng cho ChatGPT miễn phí không?
Có. Chế độ tiêu chuẩn áp dụng cho tất cả user. Chế độ reasoning, lập luận dài và web search chỉ cho Plus/Pro/Business. API riêng, theo quota riêng cho developer.
gpt-image-2 có hỗ trợ edit/inpainting không?
Chưa tại thời điểm launch. Dự kiến endpoint edit (image + mask) sẽ theo mẫu cũ nhưng với ID model mới. Xem trang model gpt-image-2 để kiểm tra cập nhật.
Hỗ trợ độ phân giải & tỉ lệ nào?
Tối đa 2.000px cạnh dài, tỉ lệ: 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3. Bao phủ banner, vertical short, square social, wide crop kiểu LinkedIn.
Cách test nhanh gpt-image-2?
Dùng client API chuyên dụng. Apidog hiển thị ảnh trực tiếp, lưu prompt, so sánh các mode dễ dàng. Nên tham khảo hướng dẫn kiểm thử API không dùng Postman.
Giá mỗi ảnh qua API là bao nhiêu?
Khoảng $0.21 cho 1024×1024 chất lượng cao, chế độ thường. Chế độ reasoning tính thêm token, nên chi phí/ảnh sẽ tăng với prompt phức tạp. Xem bảng giá OpenAI để biết tỉ lệ token mới nhất.
Model có search web khi tạo không?
Có, ở chế độ tư duy (thinking). Model có thể lấy ảnh tham chiếu, fact thật lúc vẽ (ví dụ: số liệu biểu đồ, map với nhãn đúng). Chế độ thường không search web.



Top comments (0)