OpenAI ได้เปิดตัว ChatGPT Images 2.0 เมื่อวันที่ 21 เมษายน 2026 มาพร้อมโมเดลใหม่ gpt-image-2 ที่รองรับการอ่านพรอมต์ วางแผนเลย์เอาต์ แสดงผลข้อความหลายภาษา และสร้างภาพได้สูงสุดสิบภาพต่อครั้ง ที่ความกว้างสูงสุด 2,000 พิกเซล พร้อมอัตราส่วนภาพที่หลากหลายกว่าเดิม สำหรับนักพัฒนา จุดสำคัญคือ gpt-image-2 เปิดให้ใช้งานผ่าน OpenAI API รองรับโหมด "คิด" (thinking) การคิดแบบเหตุผล การคิดราคาแบบโทเค็น และ endpoint เดียวกับที่ใช้ใน production
คู่มือนี้สรุปการเปลี่ยนแปลง ค่าใช้จ่าย วิธีใช้งาน API แบบ end-to-end และการทดสอบด้วย Apidog โดยไม่ต้องเขียนสคริปต์ชั่วคราว ถ้าเคยทดสอบ API รูปภาพรุ่นก่อนแล้วไม่พอใจเรื่องข้อความบิดเบี้ยวหรือความละเอียดต่ำ บทความนี้เหมาะกับคุณ
gpt-image-2 คืออะไร?
gpt-image-2 คือ ID โมเดลของ เครื่องมือสร้างภาพรุ่นที่สองของ OpenAI ที่มาแทน gpt-image-1 ทั้งใน API และใช้งานใน ChatGPT (เว็บ + มือถือ)
สามจุดเด่นที่ควรอัพเดตหากคุณทดสอบครั้งสุดท้ายเมื่อ 2024/2025:
- ข้อความคมชัดในทุกภาษา: โลโก้ ป้าย UI คำบรรยาย สคริปต์ที่ไม่ใช่ภาษาละติน (ญี่ปุ่น เกาหลี จีน ฯลฯ) แสดงผลได้ชัดเจน ใช้งานจริงได้ทันที
-
ให้เหตุผลก่อนสร้างภาพ: โหมด
thinkingใช้การคิดล่วงหน้า จัดวางองค์ประกอบ นับจำนวนสิ่งของ ตรวจสอบข้อจำกัด ลดโอกาสพลาดเช่นจำนวนวัตถุหรือป้ายผิด - ความละเอียดสูงขึ้น: สูงสุด 2,000px ด้านยาว อัตราส่วนภาพเช่น 3:1, 1:3 สร้างแบนเนอร์ ปกสไลด์ วิดีโอแนวตั้งได้โดยไม่ต้องอัปสเกล
OpenAI ระบุว่านี่คือการเปลี่ยนจาก “ของเล่นสร้างสรรค์” เป็น “เครื่องมือเวิร์กโฟลว์ด้านภาพ” — ใช้ทำปกนิตยสาร อินโฟกราฟิก สไลด์ หรือแม้แต่ช่องมังงะ
มีอะไรเปลี่ยนแปลงเมื่อเทียบกับ gpt-image-1
หากเคยพัฒนา endpoint รูปภาพ OpenAI มาก่อน ความต่างเชิงโค้ดมีดังนี้
| ความสามารถ | gpt-image-1 | gpt-image-2 |
|---|---|---|
| ความละเอียดสูงสุด | 1024 พิกเซล | 2,000 พิกเซลในด้านที่ยาวกว่า |
| อัตราส่วนภาพ | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| จำนวนภาพต่อคำขอ | 1 | สูงสุด 10 ภาพ พร้อมความสอดคล้องของสไตล์ |
| การแสดงผลข้อความ | ภาษาอังกฤษเท่านั้น, มักจะบิดเบี้ยว | หลายภาษา รวมถึง CJK และสคริปต์ภาษาอินเดีย |
| โหมดการให้เหตุผล | ไม่มี | มี (`thinking` flag) |
| การค้นหาเว็บระหว่างการสร้าง | ไม่มี | มี, ในโหมด thinking |
โหมดแบตช์ คือจุดเปลี่ยน: พรอมต์เดียวเรียกคืนภาพได้สูงสุด 10 ภาพที่สไตล์ตรงกัน เหมาะกับการ iterate งานออกแบบ หรือสร้างภาพชุดบนเว็บ
ความพร้อมใช้งานและราคา
การเปิดตัวแบ่งระดับดังนี้:
-
ChatGPT ฟรี: ได้รับ
gpt-image-2มาตรฐาน - ChatGPT Plus, Pro, Business: ได้โหมด thinking การให้เหตุผลยาวขึ้น และค้นหาเว็บขณะสร้างภาพ
- API Developer: ได้ทั้งสองโหมดผ่าน model ID เดียวกัน ความพร้อมใช้งานหลัง ChatGPT
ราคา (ตาม OpenAI API Pricing):
- $5 ต่อ 1 ล้านโทเค็นข้อความนำเข้า
- $10 ต่อ 1 ล้านโทเค็นข้อความส่งออก
- $8 ต่อ 1 ล้านโทเค็นภาพนำเข้า
- $30 ต่อ 1 ล้านโทเค็นภาพส่งออก
เรนเดอร์ 1024×1024 คุณภาพสูง ตกประมาณ $0.21 ต่อภาพ สูงกว่ารุ่นก่อน ~60% สะท้อนต้นทุนพื้นที่ภาพและ reasoning
หมายเหตุ: โหมด thinking คิดเงินเพิ่มตาม reasoning token หากพรอมต์เน้น lay-out หรือเหตุผล ควรตั้งงบตามนี้
การเรียกใช้งาน API
Endpoint ใช้ images/generations แบบเดิม ตัวอย่างคำขอขั้นต่ำ:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
เปิดโหมด reasoning ด้วยพารามิเตอร์ thinking:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
ผลลัพธ์คืนเป็น base64 หรือ URL ขึ้นกับ response_format สคีมาไม่เปลี่ยนจาก gpt-image-1 ใช้ SDK/wrapper เดิมได้
Python SDK ตัวอย่าง:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() ในการใช้งานจริง
ข้อควรทราบเชิงปฏิบัติ:
- โหมด thinking มีสามระดับ (
low,medium,high) เลือกmediumหากงานต้องการความถูกต้องของเค้าโครง - ผลลัพธ์แบบแบตช์ (
n > 1) สไตล์ตรงกันในคำขอเดียว คำขอแยกกันจะไม่คงสไตล์
การทดสอบ gpt-image-2 ด้วย Apidog
การทดสอบโมเดลภาพผ่าน CLI ไม่สะดวกนัก เพราะดูผลลัพธ์หรือจัดการเวอร์ชันยาก แนะนำใช้ไคลเอนต์ API เฉพาะทาง เช่น Apidog ที่รองรับ image endpoint ของ OpenAI แบบ first-class
วิธีใช้งาน Apidog กับ gpt-image-2
- สร้างคำขอ
gpt-image-2ใน Apidog collection - สร้างสอง environment: หนึ่ง
thinking: "off"อีกหนึ่งthinking: "medium" - รันพรอมต์เดียวกันผ่านทั้งสอง เปรียบเทียบผลลัพธ์ เก็บ best prompt ในไลบรารี
- แยก collection ตามประเภทงาน (แบนเนอร์, ปกสไลด์, อินโฟกราฟิก) เพื่อปรับพารามิเตอร์เฉพาะ
Tip: สามารถเชื่อมโยงคำขอ เช่น สร้างภาพแล้วโพสต์ URL ไปยัง CDN ใน test run เดียว
การตั้งค่า Apidog:
- นำเข้า OpenAPI spec ของ OpenAI
- ตั้งค่า
OPENAI_API_KEYเป็น environment variable - วาง prompt ใน content
- ส่งคำขอ ภาพจะแสดง inline ทั้ง base64/URL
- เปรียบเทียบอัตราส่วนภาพ/quality/thinking ได้ในหน้าเดียว
ดาวน์โหลด Apidog และเชื่อมกับคีย์ OpenAI ใช้งานได้ใน 5 นาที: ดาวน์โหลด Apidog
ข้อจำกัดของ gpt-image-2
- ใบหน้าคนจริงระยะใกล้ ยังไม่แม่น โดยเฉพาะคนดัง ระบบปฏิเสธพรอมต์เหล่านี้จำนวนมาก
- สินทรัพย์แบรนด์เป๊ะ (โลโก้, ตัวละครลิขสิทธิ์) ยังไม่แนะนำสำหรับงาน production
- ข้อความยาวมาก (หลายร้อยตัวอักษร) ภาพอาจผิดพลาด ใช้กับ subtitle, heading, ป้ายสั้นๆ จะดีที่สุด
- ความสอดคล้องข้ามเซสชัน ไม่รับประกัน คำขอ batch จะตรงกันในชุดเดียว แต่คำขอแยกวันจะคลาดเคลื่อนแม้ prompt/seed เหมือนกัน
ดูรายละเอียดใน รีวิว The Decoder
เปรียบเทียบกับเครื่องมือสร้างภาพอื่นๆ ในปี 2026
OpenAI ไม่ใช่เจ้าเดียวที่เน้น reasoning + image เช่น Google Nano Banana 2, โมเดล multimodal open-weight ก็ลดช่องว่างด้านข้อความไปมาก
อ่านทางเลือก API เพิ่มเติม:
- ประกาศ Qwen 3.5 Omni (Multimodal Alibaba)
- GLM 5V Turbo API (ราคาถูกกว่าแต่ข้อความแม่นน้อยกว่า)
- คู่มือใช้ Qwen 3.5 Omni
- Cursor Composer 2 (AI reasoning-first สำหรับ UX)
- Microsoft VibeVoice (OpenAI ที่เกี่ยวข้อง)
เลือก gpt-image-2 ถ้าต้องการความแม่นของข้อความ, reasoning, และ integration กับ OpenAI stack
เลือก open-weight ถ้าต้องการ self-host, ราคาต่อภาพต่ำ, หรือข้อกำหนด license เฉพาะ
คำถามที่พบบ่อย
gpt-image-2 ใช้ได้ใน ChatGPT รุ่นฟรีไหม?
ได้ รุ่นมาตรฐานสำหรับทุกคน โหมด Thinking, reasoning, เว็บ search สำหรับ Plus, Pro, Business API แยกผูกกับบัญชีนักพัฒนา โควต้าตาม plan ที่ใช้อยู่
gpt-image-2 แก้ไขภาพ/inpainting ได้ไหม?
ปัจจุบันเน้น text-to-image batch/thinking endpoint สำหรับ inpainting (ภาพ+mask) คาดว่าจะตามมาใน ID ใหม่ ตรวจสอบ หน้ารายละเอียด gpt-image-2 ก่อนใช้งาน
รองรับขนาด/อัตราส่วนภาพแบบไหน?
สูงสุด 2,000px ด้านยาว อัตราส่วน 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 ครอบคลุมแบนเนอร์, วิดีโอแนวตั้ง, โซเชียล, ภาพกว้าง
ทดสอบ gpt-image-2 ง่ายๆ อย่างไร?
ใช้ API client อย่าง Apidog รองรับ inline image, collection variable, เปรียบเทียบ thinking mode ได้ทันที ดู คู่มือ API Testing ไม่ใช้ Postman
API คิดเงินต่อภาพเท่าไร?
~$0.21 ต่อภาพ 1024x1024 คุณภาพสูง (โหมดมาตรฐาน) โหมด Thinking มีค่า reasoning เพิ่ม วางแผนงบตามพรอมต์ ดู OpenAI Pricing สำหรับอัตรา token
โมเดลค้นหาเว็บระหว่างสร้างภาพได้ไหม?
ได้ ในโหมด thinking โมเดลสามารถค้นหา reference/ข้อมูลระหว่างสร้าง เพิ่มความแม่นของแผนภาพ โหมดมาตรฐานไม่มีเว็บ search



Top comments (0)