Sebastian Petrus

Posted on Apr 22 • Originally published at apidog.com

ChatGPT Images 2.0: Có gì mới?

OpenAI đã phát hành ChatGPT Images 2.0 vào ngày 21 tháng 4 năm 2026, với mô hình gpt-image-2 mới. Mô hình này đọc prompt, lập kế hoạch bố cục, hiển thị văn bản đa ngôn ngữ sắc nét và tạo tối đa mười hình ảnh/lần với chiều rộng lên đến 2.000px và các tỷ lệ khung hình mà mô hình cũ chưa từng hỗ trợ.

Dùng thử Apidog ngay hôm nay

Điểm quan trọng cho developer là gpt-image-2 đã được mở qua API OpenAI với chế độ "tư duy" (thinking), tính phí theo token và sử dụng cùng endpoint như trước. Bài này tập trung vào thay đổi, chi phí, cách gọi API mới nhất, và cách test nhanh qua Apidog mà không cần tự viết script thử nghiệm. Nếu bạn từng bỏ qua API hình ảnh vì lỗi text hay giới hạn độ phân giải, giờ là lúc thử lại.

gpt-image-2 là gì?

gpt-image-2 là ID mô hình cho trình tạo hình ảnh thế hệ thứ hai của OpenAI, phát hành cùng ChatGPT Images 2.0 (21/4/2026). Nó thay thế gpt-image-1 ở phía API, dùng cho cả ChatGPT web/mobile lẫn API.

Ba điểm thực tế nổi bật nếu bạn từng thử image API của OpenAI từ 2024-2025:

Văn bản rõ nét, đa ngôn ngữ: Logo, nhãn UI nhỏ, chú thích, ký tự không phải Latin (Nhật, Hàn, Trung, Hindi, Bengali) đã đủ rõ để dùng trực tiếp không cần sửa tay.
Lập luận trước khi tạo pixel: Chế độ thinking tăng compute cho lập kế hoạch bố cục, đếm đối tượng, check constraints trước khi vẽ. Giảm số prompt lặp lại do sai số đếm hay nhãn.
Độ phân giải & tỉ lệ linh hoạt: Lên đến 2.000px ở cạnh dài, hỗ trợ 3:1, 1:3, 16:9, 9:16... Phù hợp làm banner, cover slide, video dọc, không cần upscaling thêm.

OpenAI định vị đây là bước chuyển từ "công cụ sáng tạo" sang "tool workflow trực quan": làm page tạp chí, infographic, template slide, thậm chí bảng truyện tranh/manga.

Điều gì đã thay đổi so với gpt-image-1

Nếu bạn đã tích hợp endpoint image cũ, dưới đây là các khác biệt kỹ thuật chính:

Tính năng	gpt-image-1	gpt-image-2
Độ phân giải tối đa	1024 px	2.000 px ở cạnh dài
Tỷ lệ khung hình	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Số lượng hình ảnh/yêu cầu	1	Lên tới 10, giữ phong cách
Văn bản hiển thị	Chỉ tiếng Anh, dễ lỗi	Đa ngôn ngữ, gồm CJK & Indic
Chế độ lập luận	Không	Có (`thinking` flag)
Tìm kiếm web khi tạo	Không	Có (ở chế độ tư duy)

Chế độ tạo batch (nhiều ảnh/lần) là nâng cấp hữu ích: một prompt trả về nhiều biến thể cùng layout, palette – phù hợp cho designer, team sản phẩm cần ảnh hero đồng nhất cho nhiều page.

Khả dụng & định giá

Phân tầng triển khai:

ChatGPT Free: Dùng gpt-image-2 tiêu chuẩn.
ChatGPT Plus/Pro/Business: Có chế độ tư duy, lập luận lâu hơn, tìm kiếm web lúc tạo.
API Developer: Truy cập đủ chế độ qua ID gpt-image-2. Đã triển khai dần sau khi ChatGPT ra mắt.

Pricing (tham khảo bảng giá OpenAI):

$5 / triệu token text input
$10 / triệu token text output
$8 / triệu token image input
$30 / triệu token image output

Chi phí hình ảnh 1024×1024 chất lượng cao khoảng $0.21/ảnh, cao hơn ~60% so với đời trước – chủ yếu vì canvas lớn & bước reasoning.

Lưu ý: Chế độ tư duy tính thêm token reasoning → prompt càng phức tạp (layout, điều kiện) càng tốn phí. Dự phòng chi phí theo loại prompt, không mặc định fix giá/ảnh.

Gọi API

Endpoint không đổi: images/generations. Ví dụ request cơ bản:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Để bật reasoning, thêm param thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

Response trả về base64 hoặc URL tùy response_format, schema không đổi so với gpt-image-1; SDK wrappers cũ chỉ cần sửa model ID.

Python SDK ví dụ:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # Nên decode() trong thực tế

Lưu ý thực tiễn:

Chế độ tư duy có 3 mức (low, medium, high); đổi latency lấy độ chính xác layout. Với hình technical, schema, infographic nên dùng medium hoặc cao hơn.
Output batch (n > 1) giữ style nhất quán trong 1 lần gọi, nhưng không giữa nhiều lần gọi khác nhau. Muốn bộ 10 ảnh khớp nhau: gọi 1 lần với n:10.

Kiểm tra gpt-image-2 với Apidog

Việc lặp nhanh trên image model qua terminal là bất tiện: không preview, khó chỉnh prompt và so sánh kết quả. Sử dụng API client chuyên dụng sẽ tối ưu hơn. Nếu bạn quen Postman hoặc các REST client khác, hãy thử giải pháp chuyên cho image API.

Apidog nhận diện endpoint hình ảnh OpenAI như một yêu cầu chính. Chỉ cần:

Import OpenAPI spec của OpenAI
Đặt biến môi trường OPENAI_API_KEY
Paste prompt vào body, gửi request

Kết quả ảnh sẽ hiển thị trực tiếp (base64/URL). Bạn có thể phân nhánh request để so sánh tỉ lệ, chất lượng, chế độ thinking cạnh nhau.

Quy trình mẫu với Apidog:

Tạo request gpt-image-2 trong một collection.
Lưu hai environment: một với thinking: "off", một với thinking: "medium".
Chạy cùng prompt qua cả hai, so sánh output, giữ lại kết quả tốt.
Phân nhánh collection cho từng loại asset (banner, slide cover, infographic) với param riêng.

Bạn cũng có thể chain call: tạo image rồi tự động post URL lên CDN trong cùng một lần chạy thử nghiệm – điều mà curl script không làm được.

Nếu bạn từng test image API bằng client HTTP thông thường, hãy thử tải Apidog và kết nối với OpenAI key; setup dưới 5 phút.

Những điểm gpt-image-2 vẫn còn gặp khó khăn

Dù cải tiến mạnh, vẫn còn giới hạn:

Chân dung cận cảnh thực tế vẫn dễ lỗi (đặc biệt với người nổi tiếng). Nhiều prompt dạng này bị chặn bởi OpenAI.
Logo & tài sản thương hiệu: không đảm bảo chính xác tuyệt đối. Nên dùng cho mood, demo – không dùng làm final brand asset.
Text dài (paragraph trong 1 ảnh): bị vỡ layout sau vài trăm ký tự. Thích hợp caption, heading, label – không dành cho in ảnh bài viết.
Tính nhất quán qua phiên: batch giữ style trong 1 lần call, nhưng qua các lần khác nhau (khác ngày, khác seed) sẽ lệch.

Các nguồn như The Decoder, PetaPixel cũng xác nhận những hạn chế này. Xem bài đánh giá của The Decoder để hiểu rõ hơn.

So sánh với các tool tạo hình ảnh khác (2026)

OpenAI không độc quyền về image reasoning. Google Nano Banana 2 đã ra mắt trước đó; một số model mã nguồn mở cũng đã rút ngắn khoảng cách về khả năng hiển thị text.

Một số phân tích chuyên sâu liên quan (nên đọc khi so sánh API):

Thông báo về Qwen 3.5 Omni: Multimodal của Alibaba, có image input & generation.
Hướng dẫn API GLM 5V Turbo: API language-vision của Zhipu, rẻ hơn nhưng trade-off text accuracy.
Cách sử dụng Qwen 3.5 Omni: Hướng dẫn thực hành.
Phân tích Cursor Composer 2: AI ưu tiên reasoning, tương tự ChatGPT Images 2.0.
Hướng dẫn Microsoft VibeVoice: Sản phẩm liên quan OpenAI.

Nên dùng gpt-image-2 khi: Cần độ chính xác text, reasoning layout, tích hợp chặt với hệ sinh thái OpenAI.

Nên dùng model mã nguồn mở khi: Muốn tự host, giá/ảnh rẻ hơn, hoặc cần license tự do cho commercial.

Câu hỏi thường gặp

gpt-image-2 có khả dụng cho ChatGPT miễn phí không?

Có. Chế độ tiêu chuẩn áp dụng cho tất cả user. Chế độ reasoning, lập luận dài và web search chỉ cho Plus/Pro/Business. API riêng, theo quota riêng cho developer.

gpt-image-2 có hỗ trợ edit/inpainting không?

Chưa tại thời điểm launch. Dự kiến endpoint edit (image + mask) sẽ theo mẫu cũ nhưng với ID model mới. Xem trang model gpt-image-2 để kiểm tra cập nhật.

Hỗ trợ độ phân giải & tỉ lệ nào?

Tối đa 2.000px cạnh dài, tỉ lệ: 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3. Bao phủ banner, vertical short, square social, wide crop kiểu LinkedIn.

Cách test nhanh gpt-image-2?

Dùng client API chuyên dụng. Apidog hiển thị ảnh trực tiếp, lưu prompt, so sánh các mode dễ dàng. Nên tham khảo hướng dẫn kiểm thử API không dùng Postman.

Giá mỗi ảnh qua API là bao nhiêu?

Khoảng $0.21 cho 1024×1024 chất lượng cao, chế độ thường. Chế độ reasoning tính thêm token, nên chi phí/ảnh sẽ tăng với prompt phức tạp. Xem bảng giá OpenAI để biết tỉ lệ token mới nhất.

Model có search web khi tạo không?

Có, ở chế độ tư duy (thinking). Model có thể lấy ảnh tham chiếu, fact thật lúc vẽ (ví dụ: số liệu biểu đồ, map với nhãn đúng). Chế độ thường không search web.