ما الجديد في صور ChatGPT 2.0؟

أطلقت OpenAI ميزة ChatGPT Images 2.0 في 21 أبريل 2026، مدعومة بنموذج جديد يسمى gpt-image-2. هذا النموذج يقرأ الموجهات، يخطط للتصميم، ينتج نصوصًا دقيقة بعدة لغات، ويولد حتى 10 صور دفعة واحدة بدقة تصل إلى 2000 بكسل ونسب عرض إلى ارتفاع لم تكن مدعومة سابقًا.

جرّب Apidog اليوم

بالنسبة للمطورين، الأهم هو أن gpt-image-2 متاح الآن عبر API OpenAI مع وضع "التفكير" الذي يضيف منطقًا للتوليد، وتسعير على أساس الرموز، ونمط نقطة نهاية متوافق مع ما بنيت عليه بالفعل. هذا الدليل عملي: سيشرح ما تغير، التسعير، كيفية تنفيذ الطلبات، وكيفية اختبارها مباشرة باستخدام Apidog دون الحاجة إلى كتابة سكربتات مكررة. لو كنت قد جربت واجهات برمجة تطبيقات الصور سابقًا وتراجعت بسبب تشوه النص أو محدودية الدقة، هذا الدليل لك.

ما هو gpt-image-2؟

gpt-image-2 هو معرف الجيل الثاني من مولد الصور في OpenAI، وأصبح متاحًا في 21 أبريل 2026 مع إطلاق ChatGPT Images 2.0. يستبدل هذا النموذج عائلة gpt-image-1 السابقة ويدعم إنشاء الصور داخل ChatGPT عبر الويب والجوال.

أهم ثلاث ميزات للمطورين عند الانتقال من إصدارات 2024/2025:

نص مقروء ودقيق: يسمح الآن بإنتاج تسميات واجهة المستخدم، شعارات، نصوص توضيحية، ونصوص بلغات مثل اليابانية والكورية والصينية والهندية والبنغالية بجودة كافية للنشر دون تعديل يدوي.
منطق قبل البكسل: وضع "التفكير" (thinking) يخطط التكوين والمنطق بدقة قبل التوليد. يقلل هذا من إعادة المحاولة بسبب أخطاء في عدد العناصر أو الرسوم البيانية.
دقة ونسب عرض أعلى: حتى 2000 بكسل ونسب عرض إلى ارتفاع مثل 3:1 أو 1:3، مما يتيح إنشاء لافتات وأغلفة وعروض تقديمية دون الحاجة لتكبير ثانوي.

هذا التطور ينقل النموذج من "لعبة إبداعية" إلى "أداة إنتاجية بصرية" لتصميم المجلات، الرسوم البيانية، الشرائح، ولوحات المانجا.

ما الذي تغير مقارنةً بـ gpt-image-1

إذا كنت تستخدم نقطة النهاية السابقة للصور، لاحظ الفروقات التالية:

القدرة	gpt-image-1	gpt-image-2
أقصى دقة	1024 بكسل	2000 بكسل على الحافة الطويلة
نسب العرض إلى الارتفاع	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
الصور لكل طلب	1	حتى 10، مع اتساق الأسلوب
عرض النص	الإنجليزية فقط، وغالبًا مشوه	متعدد اللغات، تشمل CJK والهندية
وضع التفكير	لا	نعم (`thinking`)
بحث الويب أثناء التوليد	لا	نعم، في وضع التفكير

الوضع الدفعي (batch) ميزة قوية: يمكنك طلب حتى 10 صور بنفس الأسلوب والتكوين في استدعاء واحد، ما يناسب فرق التصميم وسيناريوهات إنتاج صور متسقة.

التوفر والتسعير

مستخدمي ChatGPT المجاني: يحصلون على النموذج القياسي.
Plus/Pro/Business: يحصلون على وضع التفكير، توليد منطقي أطول، وبحث الويب أثناء الإنشاء.
مطوري API: يحصلون على كل الأوضاع عبر معرف gpt-image-2، مع طرح تدريجي.

التسعير حسب صفحة تسعير OpenAI:

5 دولار لكل مليون رمز نص إدخال
10 دولار لكل مليون رمز نص إخراج
8 دولار لكل مليون رمز صورة إدخال
30 دولار لكل مليون رمز صورة إخراج

في العادة، الصورة بجودة 1024 × 1024 تكلف تقريبًا 0.21 دولار في الوضع القياسي، وتزيد مع وضع التفكير بسبب الرموز المنطقية الإضافية. خطط الميزانية بناءً على تعقيد المطالبات وليس صورة ثابتة لكل توليد.

استدعاء واجهة برمجة التطبيقات

نقطة النهاية هي images/generations، مثل السابق. مثال عملي:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

لتمكين وضع التفكير، أضف المعامل thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

الاستجابة إما بيانات صورة base64 أو URL حسب response_format. بنية الاستجابة لم تتغير عن gpt-image-1، مما يجعل التحديث سهل في SDKs.

بايثون باستخدام SDK الرسمي:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

ملاحظات عملية:

وضع التفكير له ثلاث مستويات (منخفض، متوسط، مرتفع)، اختر متوسط للرسوم البيانية أو الجداول الدقيقة.
الإخراج الدفعي (n > 1) يحافظ على الاتساق داخل نفس الاستدعاء فقط. إذا أردت مجموعة متطابقة، اطلبها دفعة واحدة.

اختبار gpt-image-2 باستخدام Apidog

العمل مع API الصور من سطر الأوامر غير فعال. استخدم عميل API يدعم استعراض الصور مباشرةً، مثل Apidog، الذي يتعامل مع نقاط نهاية OpenAI كطلبات أصلية.

خطوات عملية للاختبار باستخدام Apidog:

أنشئ طلب gpt-image-2 في مجموعة Apidog.
احفظ بيئتين: واحدة مع thinking: "off" وأخرى مع thinking: "medium".
شغّل نفس الموجه على البيئتين، قارن النتائج، واحتفظ بالأفضل في مكتبة الموجهات.
أنشئ تفرعات (branches) لكل نوع صورة (لافتة، رسم بياني، إلخ) مع معلمات مخصصة.

يمكنك أيضًا دمج الاستدعاءات: أنشئ صورة ثم انشر الـ URL مباشرةً إلى CDN في نفس الاختبار. هذا يختصر الوقت مقارنة بالسكريبتات اليدوية.

للبدء بسرعة، حمّل Apidog ووصله بمفتاح OpenAI الخاص بك، والإعداد لا يستغرق أكثر من 5 دقائق.

أين لا يزال gpt-image-2 يواجه صعوبات

رغم التحديثات، هناك قيود يجب الانتباه لها:

الوجوه الواقعية القريبة غير مستقرة، وخاصة للشخصيات العامة، وغالبًا يتم رفض الطلبات من الحماية المدمجة.
أصول العلامة التجارية الدقيقة (شعارات/شخصيات مسجلة) ليست موثوقة للاستخدام النهائي.
النصوص الطويلة جدًا داخل الصور تتفكك بعد عدة مئات من الأحرف؛ النموذج مناسب للتسميات، العناوين، والتصنيفات فقط.
الاتساق عبر الجلسات غير مضمون. الاتساق مضمون فقط داخل استدعاء دفعي واحد.

للمزيد من التفاصيل، راجع مراجعة The Decoder.

مقارنته ببقية مجال توليد الصور لعام 2026

OpenAI ليست الوحيدة في إضافة المنطق للصور. هناك نماذج مثل Nano Banana 2 من Google ونماذج مفتوحة الوزن تحسنت في دقة النص.

روابط مفيدة للتقييم والمقارنة:

إعلان Qwen 3.5 Omni: عن مبادرة علي بابا متعددة الأنماط.
دليل GLM 5V Turbo API: شرح واجهة برمجة تطبيقات Zhipu للغة المرئية.
كيفية استخدام Qwen 3.5 Omni: دليل عملي.
تحليل Cursor Composer 2: تحليل كيف تغير أدوات الذكاء الاصطناعي تجربة المستخدم.
دليل Microsoft VibeVoice: أحدث من OpenAI.

اختر gpt-image-2 عندما تكون دقة النص والمنطق والتكامل أهم من التكلفة. أما إذا كنت تحتاج لاستضافة ذاتية أو ترخيص أكثر مرونة أو تكلفة أقل، فالنماذج المفتوحة هي الأنسب.

الأسئلة الشائعة

هل gpt-image-2 متاح مجانًا في ChatGPT؟

نعم، الوضع القياسي متاح للجميع، أما وضع التفكير والبحث في الويب فمتاحين لمشتركي Plus/Pro/Business. الوصول لـ API مرتبط بحساب مطور OpenAI ونفس حدود المعدل المعتادة.

هل يدعم gpt-image-2 تحرير الصور والتلوين؟

الإصدار الحالي يركز على تحويل النص إلى صورة مع الأوضاع الجديدة. تحرير الصور (صورة + قناع) متوقع أن يتبع نفس النمط مع النموذج الجديد. راجع صفحة نموذج gpt-image-2 لأي تحديث.

ما الدقة ونسب العرض المدعومة؟

حتى 2000 بكسل ونسب 1:1، 3:2، 2:3، 16:9، 9:16، 3:1، 1:3. مناسب للافتات، الصور الرأسية، المربعة، والعريضة.

كيف أختبر طلبات gpt-image-2 بسرعة؟

استخدم عميل API مثل Apidog لعرض الصور مباشرةً، وتخزين الموجهات، ومقارنة الأوضاع. الفرق التي تنتقل من سطر الأوامر غالبًا تعتمد هذا الأسلوب، ويمكنك دمجه مع دليل اختبار API بدون Postman.

كم تكلفة الصورة الواحدة عبر API؟

حوالي 0.21 دولار عند جودة 1024×1024 في الوضع القياسي. وضع التفكير يضيف تكلفة رموز إضافية. خطط لتكلفة متغيرة حسب تعقيد الموجه وراجع تسعير OpenAI للأرقام الدقيقة.

هل يمكن للنموذج البحث في الويب أثناء التوليد؟

نعم في وضع التفكير فقط، وهذا يساعد في دقة الرسوم البيانية والخرائط. الوضع القياسي لا يدعم البحث في الويب.