Yusuf Khalidd

Posted on Jun 17 • Originally published at apidog.com

معايير أداء ومواصفات GLM-5.2: اختبارات SWE-bench Pro و Terminal-Bench وتفسير الأرقام

وصل نموذج GLM-5.2 من Z.ai (Zhipu AI) مع مجموعة نتائج معيارية تستحق التحقق العملي، لا القراءة فقط. الرقم الأبرز هو SWE-bench Pro بنتيجة 62.1، متقدمًا على GPT-5.5 حسب أرقام Z.ai. لكن الإشارة العملية الأقوى للمطورين هي قفزة Terminal-Bench من 62.0 إلى 81.0 في جيل واحد، لأنها تقيس قدرة النموذج على تنفيذ مهام متعددة الخطوات داخل الطرفية واستخدام الأدوات.

جرّب Apidog اليوم

جميع أرقام الإطلاق هنا منشورة من Z.ai ما لم يُذكر خلاف ذلك. لذلك، تعامل معها كنقطة بداية للتقييم، لا كحكم نهائي. في هذا المقال سنفكك كل معيار: ماذا يقيس، ماذا يثبت، وما الذي يجب أن تختبره بنفسك قبل اعتماد GLM-5.2 في سير عمل حقيقي.

💡 إذا كنت تبني أو تختبر واجهات برمجة التطبيقات أثناء تقييم نماذج كهذه، فإن Apidog يساعدك على تصميم، تصحيح، محاكاة، وتوثيق نقاط النهاية التي يستدعيها الوكيل. هذا مهم لأن جزءًا كبيرًا من مكاسب GLM-5.2 يظهر في استخدام الأدوات والعمل الوكيلي، وهي عمليًا تفاعلات API منظمة.

النسخة المختصرة: نتائج GLM-5.2 التي تهم المطورين

ابدأ من هذا الجدول. استخدمه لتحديد أين يجب أن تركّز اختبارك الخاص: إصلاح الكود، الطرفية، استخدام الأدوات، أو الاستدلال.

المعيار	ما يقيسه	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	إصلاح أخطاء مستودعات حقيقية	62.1	58.4	58.6	غير متوفر
Terminal-Bench 2.1	مهام طرفية/وكيل متعددة الخطوات	81.0	62.0	غير متوفر	غير متوفر
MCP-Atlas	استخدام الأدوات عبر خوادم MCP	77.0	غير متوفر	75.3	77.8
اختبار البشرية الأخير HLE مع الأدوات	استدلال خبراء صعب	54.7	غير متوفر	52.2	غير متوفر
AIME 2026	مسابقة رياضيات	99.2	غير متوفر	غير متوفر	غير متوفر
GPQA-Diamond	علوم على مستوى الدراسات العليا	91.2	غير متوفر	غير متوفر	غير متوفر

كما تفيد Z.ai بأن GLM-5.2 هو النموذج مفتوح المصدر الأعلى أداءً في FrontierSWE وPostTrainBench وSWE-Marathon. هذا ادعاء مهم، لكنه يعني تحديدًا “ضمن النماذج مفتوحة الأوزان”، وليس بالضرورة التفوق المطلق على كل نموذج مغلق في كل اختبار.

للحصول على شرح مبسط لماهية النموذج، راجع نظرة عامة على GLM-5.2. وللمقارنة المباشرة مع النماذج الاحتكارية، اقرأ تحليل GLM-5.2 مقابل GPT-5.5 وOpus وGemini.

SWE-bench Pro: ماذا تعني نتيجة 62.1 عمليًا؟

SWE-bench Pro يختبر شيئًا قريبًا جدًا من عمل المطور اليومي: مشكلة GitHub حقيقية، مستودع كامل، ومطلوب من النموذج إنتاج تصحيح يجتاز اختبارات مخفية. لا توجد أسئلة اختيار من متعدد ولا أمثلة مصطنعة.

سجل GLM-5.2 نتيجة 62.1، بينما سجل GPT-5.5 نتيجة 58.6 وGLM-5.1 نتيجة 58.4 وفقًا لـ Z.ai.

القراءة العملية:

التقدم على GPT-5.5 بفارق 3.5 نقطة مهم، لكنه ليس فجوة ساحقة. في معايير الكود، يمكن أن تؤثر بيئة التشغيل، عدد المحاولات، وصياغة المطالبة على بضع نقاط.
التحسن عن GLM-5.1 بفارق 3.7 نقطة أوضح، لأن المقارنة بين جيلين من نفس المختبر غالبًا أكثر اتساقًا.
إذا كان استخدامك هو إصلاح مشاكل في مستودعات كبيرة، فهذا معيار يجب أن تعيد اختباره على مستودعاتك أنت.

طريقة اختبار مشابهة داخل مشروعك

بدل الاكتفاء بالنتيجة العامة، اختر 10 إلى 20 issue حقيقية من مشروعك أو من مستودع داخلي، ثم قيّم النموذج بهذه البنية:

أنت تعمل على مستودع حقيقي.
المطلوب:
1. اقرأ وصف المشكلة.
2. حدد الملفات المرجح تعديلها.
3. اقترح خطة قصيرة.
4. نفذ التعديل كـ patch.
5. اشرح لماذا يجب أن يجتاز الاختبارات.

وصف المشكلة:
<ضع نص الـ issue هنا>

قيود:
- لا تغيّر السلوك غير المرتبط بالمشكلة.
- لا تضف تبعيات جديدة إلا إذا كانت ضرورية.
- أعطِ patch فقط في النهاية.

ثم قيّم النتائج بناءً على:

هل عدّل الملفات الصحيحة؟
هل أصلح الخطأ دون كسر سلوك آخر؟
هل يمر الاختبار؟
هل يحتاج إلى تدخل بشري كبير؟

Terminal-Bench 2.1: نتيجة 81.0 هي الإشارة الأقوى

Terminal-Bench يقيس النموذج كوكيل داخل واجهة طرفية حقيقية. المهمة لا تتوقف عند كتابة جواب، بل تشمل:

تثبيت التبعيات
تشغيل أوامر
قراءة المخرجات
التعامل مع الأخطاء
تعديل المسار عند الفشل
إكمال مهمة متعددة الخطوات

هنا جاءت القفزة الأكبر: GLM-5.1 سجل 62.0، بينما GLM-5.2 سجل 81.0. هذا فرق 19 نقطة في جيل واحد.

بالنسبة للمطورين، هذا يعني أن GLM-5.2 قد يكون أفضل في سيناريوهات مثل:

إعداد مشروع جديد من README غير مثالي
تشغيل test suite وإصلاح الأعطال المتتالية
تحليل logs طويلة
تنفيذ migration متعددة الخطوات
التعامل مع بيئة build معقدة

تربط Z.ai هذه القفزة جزئيًا بآلية الانتباه المتفرق IndexShare في GLM-5.2، والتي تعيد استخدام مفهرس واحد عبر كل أربع طبقات انتباه متفرق لتقليل تكلفة الانتباه في السياقات الطويلة. هذا منطقي مع مهام الطرفية، لأنها تولد سجلًا طويلًا من:

command -> output -> command -> error -> fix -> output -> next command

النموذج الذي يحتفظ بهذا السياق دون فقدان المسار يكون أكثر فائدة في مهام الوكلاء طويلة الأفق. للمقارنة بين الجيلين، راجع GLM-5.2 مقابل GLM-5.1.

تحذير مهم

معايير الوكلاء حساسة جدًا للإعداد المحيط بالنموذج:

زمن المهلة
عدد المحاولات المسموح بها
أدوات shell المتاحة
صياغة system prompt
طريقة حفظ السياق
هل يُسمح للنموذج بإعادة المحاولة أم لا

لذلك لا تعتمد على رقم 81.0 وحده. اختبره على مهمة طرفية حقيقية من بيئتك.

مثال تقييم بسيط:

# 1. أعطِ النموذج مستودعًا جديدًا
git clone <repo>
cd <repo>

# 2. اطلب منه:
# - تثبيت التبعيات
# - تشغيل الاختبارات
# - إصلاح أول فشل
# - إعادة تشغيل الاختبارات
# - تلخيص التغييرات

# 3. سجّل:
# - عدد الأوامر الخاطئة
# - عدد المرات التي احتاج فيها تدخلًا
# - هل وصل إلى حالة green tests؟

MCP-Atlas: نتيجة 77.0 تعني أن استخدام الأدوات أصبح جديًا

MCP-Atlas يقيس قدرة النموذج على استخدام الأدوات عبر Model Context Protocol. عمليًا، هذا يشبه كثيرًا دمج النموذج مع APIs حقيقية:

يختار الأداة المناسبة.
ينسّق الطلب بالصيغة الصحيحة.
يقرأ الاستجابة.
يعالج الخطأ إن حدث.
يكمل المهمة بناءً على النتيجة.

سجل GLM-5.2 نتيجة 77.0. حسب Z.ai، سجل GPT-5.5 نتيجة 75.3، وسجل Claude Opus 4.8 نتيجة 77.8. هذه فروقات صغيرة، لذلك القراءة العادلة هي أن النماذج الثلاثة في نفس المنطقة تقريبًا لاستخدام الأدوات.

كيف تختبر استخدام الأدوات بنفسك؟

إذا كان لديك API داخلي، لا تبدأ مباشرة بالإنتاج. أنشئ بيئة mock أولًا.

مثال task للوكيل:

لديك أداة getUserByEmail وأداة createTicket.
المطلوب:
1. ابحث عن المستخدم عبر البريد.
2. إذا كان المستخدم موجودًا، أنشئ ticket باسمه.
3. إذا لم يكن موجودًا، لا تنشئ ticket وأعد رسالة واضحة.
4. إذا أعادت API خطأ 500، أعد المحاولة مرة واحدة فقط.

مثال schema مبسط لأداة:

{
  "name": "getUserByEmail",
  "input_schema": {
    "type": "object",
    "properties": {
      "email": {
        "type": "string"
      }
    },
    "required": ["email"]
  }
}

راقب هل النموذج:

يرسل JSON صالحًا؟
يستخدم اسم الحقل الصحيح؟
يتعامل مع 404 بشكل مختلف عن 500؟
يعيد المحاولة عند الحاجة فقط؟
يتوقف بدل الدخول في loop؟

هنا يصبح Apidog مفيدًا: يمكنك تعريف نقاط النهاية، محاكاتها، ومراقبة الطلبات والاستجابات التي يولدها النموذج قبل ربطه بخدمات حقيقية. وإذا أردت اختبار استدعاءات الأدوات مثل أي API أخرى، يمكنك تنزيل Apidog.

الاستدلال والرياضيات: HLE وAIME وGPQA-Diamond

GLM-5.2 ليس نموذج برمجة فقط. نتائجه في الاستدلال قوية أيضًا:

اختبار البشرية الأخير HLE مع الأدوات: 54.7

اختبار صعب يغطي أسئلة خبراء عبر مجالات متعددة. يتجاوز GLM-5.2 نتيجة GPT-5.5 البالغة 52.2 وفقًا لـ Z.ai. أي نتيجة في الخمسينيات هنا تعتبر قوية.
AIME 2026: 99.2

AIME مسابقة رياضيات لطلاب متقدمين. نتيجة 99.2 قريبة من السقف، وهذا يعني أن الاختبار لم يعد يفرّق كثيرًا بين النماذج الرائدة. اقرأها كإشارة “لا توجد نقطة ضعف واضحة في الرياضيات”، لا كعامل حاسم وحده.
GPQA-Diamond: 91.2

GPQA-Diamond يختبر أسئلة علمية على مستوى الدراسات العليا. نتيجة 91.2 تضع GLM-5.2 ضمن منطقة قوية في الاستدلال التقني.

يدعم GLM-5.2 مستويين من جهد التفكير: مرتفع وأقصى، مع إمكانية تعطيله. في مهام البرمجة الصعبة، توصي Z.ai باستخدام الحد الأقصى. عمليًا، هذا يعني أنك تختار بين:

زمن استجابة أقل
أو استدلال أعمق واحتمال أعلى للوصول إلى حل صحيح

لتحليل أوسع بجانب النماذج الأخرى، راجع معايير GLM-5.2 مقابل المجال.

ماذا يعني ادعاء “الأعلى مفتوح المصدر”؟

تقول Z.ai إن GLM-5.2 هو النموذج مفتوح المصدر الأعلى أداءً في FrontierSWE وPostTrainBench وSWE-Marathon.

اقرأ هذا الادعاء بدقة. “الأعلى مفتوح المصدر” لا يعني “الأعلى بين كل النماذج دائمًا”. المقصود هو المقارنة داخل مجال النماذج مفتوحة الأوزان.

حسب المعلومات المنشورة، يأتي GLM-5.2 بترخيص MIT، وأوزان مفتوحة، ودون قيود إقليمية. هذا يختلف عن نموذج مغلق تستخدمه عبر API فقط. إذا كان شرطك هو الاستضافة الذاتية أو التحكم في النشر، يصبح هذا التفصيل مهمًا جدًا.

الصياغة العملية:

GLM-5.2 قريب من منطقة النماذج الرائدة عمومًا.
وهو قوي جدًا بين النماذج مفتوحة الأوزان.
لكنه لا يلغي الحاجة إلى مقارنة مباشرة على عبء عملك.

ذكرت VentureBeat أن GLM-5.2 “يتفوق على GPT-5.5 في البرمجة طويلة الأفق بتكلفة تبلغ سدس التكلفة تقريبًا”. هذا توصيف VentureBeat، ويجب التعامل معه كإطار خارجي لقصة التكلفة، لا كقياس مستقل يجب تعميمه على كل حالة استخدام.

مواصفات GLM-5.2 التي تؤثر على التنفيذ

المواصفة	القيمة
المعلمات	إجمالي نحو 753 مليار، بنية خليط خبراء MoE
الدقة	BF16
الانتباه	انتباه متفرق IndexShare، مفهرس واحد مشترك لكل 4 طبقات متفرقة
نافذة السياق	مليون رمز، 1,048,576
الحد الأقصى للمخرجات	حتى 128 ألفًا وفقًا لوثائق z.ai، تحقق مباشرة لأن بعض المزوّدين لا يذكرونه
النمط	نص للداخل، نص للخارج
جهد التفكير	مرتفع وأقصى، ويمكن تعطيله
الترخيص	MIT، أوزان مفتوحة، لا توجد قيود إقليمية
معرفات النموذج	Hugging Face: `zai-org/GLM-5.2`، API: `glm-5.2`، Ollama: `glm-5.2`، OpenRouter: `z-ai/glm-5.2`

ملاحظات مهمة عند التنفيذ:

رقم 753 مليار هو إجمالي معلمات MoE، وليس بالضرورة المعلمات النشطة لكل رمز.
سياق المليون رمز مفيد جدًا في مهام الوكلاء، لكنه لا يعني أن كل استخدام يجب أن يملأ السياق كاملًا.
الحد الأقصى للمخرجات قد يختلف حسب المزوّد، لذلك تحقق من الوثائق الحالية قبل بناء سير عمل يعتمد على 128K output.
لا يوجد إصدار رؤية مؤكد من GLM-5.2. إذا رأيت اسمًا مثل GLM-5.2V، فلا تعتبره مؤكدًا من Z.ai دون مصدر رسمي.

تسعيريًا، يسرد OpenRouter 1.40 دولارًا لكل مليون رمز إدخال و4.40 دولارًا لكل مليون رمز إخراج، مع إدخال مخبأ يقارب 0.26 دولارًا لكل مليون حسب رقم VentureBeat. لتفاصيل أوسع، راجع تسعيرة GLM-5.2. وإذا أردت تشغيله دون الدفع لكل رمز، اقرأ كيفية استخدام GLM-5.2 مجانًا.

كيف تتحقق من هذه النتائج داخل فريقك؟

بطاقات الأداء مفيدة، لكنها لا تكفي لاتخاذ قرار معماري. اتبع هذه الخطوات:

1. اقرأ المصادر الأساسية

ابدأ من:

استخدمها للتحقق من المنهجية، التكوين، وحدود النموذج.

2. تحقق من القوائم الخارجية

راجع:

هذه المصادر تساعدك في التحقق من المعرّفات، التسعير، ومسارات التشغيل.

3. شغّل تقييمًا مصغرًا على عبء عملك

اختر 3 أنواع مهام:

مهمة كود حقيقية

إصلاح bug أو إضافة feature صغيرة في مستودع قائم.
مهمة طرفية طويلة

إعداد مشروع، تشغيل tests، إصلاح فشل، ثم إعادة التشغيل.
مهمة أدوات/API

استدعاء endpoint، معالجة أخطاء، واتخاذ قرار بناءً على الاستجابة.

يمكنك استخدام جدول تقييم بسيط:

البند	النتيجة
هل فهم المطلوب؟	نعم/لا
هل اختار الملفات أو الأدوات الصحيحة؟	نعم/لا
هل أنتج JSON أو patch صالحًا؟	نعم/لا
هل تعامل مع الأخطاء؟	نعم/لا
هل احتاج تدخلًا بشريًا؟	قليل/متوسط/كثير
هل النتيجة قابلة للإنتاج؟	نعم/لا

للسياق التاريخي، راجع أيضًا GLM-5.1 ومقارنة سرعة وتكلفة GLM-5 مقابل DeepSeek مقابل GPT-5.

اختبار استدعاءات API قبل الإنتاج

عند تقييم نموذج وكيل، غالبًا لا يفشل في “الفكرة” بل في التفاصيل:

JSON غير صالح
اسم حقل خاطئ
اختيار endpoint غير مناسب
تجاهل pagination
عدم معالجة 401 أو 429
إعادة محاولة غير مضبوطة
افتراضات غير موجودة في الاستجابة

لذلك، قبل ربط GLM-5.2 بخدمات الإنتاج، أنشئ endpoints وهمية ومراقبة.

مثال استجابة خطأ يجب اختبارها:

{
  "error": {
    "code": "RATE_LIMITED",
    "message": "Too many requests. Retry after 30 seconds."
  }
}

ثم راقب هل النموذج:

يفهم أن الخطأ مؤقت؟
ينتظر أو يقترح retry مناسبًا؟
لا يكرر الطلب بلا حدود؟
يعيد رسالة مفيدة للمستخدم؟

يمكنك إعداد هذه السيناريوهات في Apidog، ثم رؤية الطلبات والاستجابات الفعلية التي يرسلها النموذج. هذه طريقة أسرع لمعرفة هل النموذج صالح لمكدسك، بدل الاعتماد فقط على نتيجة MCP-Atlas.

الخلاصة

نتائج GLM-5.2 تبدو قوية عند التدقيق، خصوصًا في:

Terminal-Bench: قفزة من 62.0 إلى 81.0
SWE-bench Pro: نتيجة 62.1 وتقدم محدود لكن مهم على GPT-5.5
MCP-Atlas: أداء قريب جدًا من أعلى النماذج في استخدام الأدوات
الاستدلال: نتائج قوية في HLE وAIME وGPQA-Diamond

لكن القرار العملي لا يجب أن يبنى على الأرقام وحدها. اختبره على مستودعاتك، الطرفية الخاصة بك، وواجهات API التي يستخدمها وكيلك فعليًا.

إذا كان تقييمك يتضمن استدعاءات أدوات أو APIs، فابدأ بمحاكاة نقاط النهاية في Apidog، راقب ما يرسله النموذج وما يستقبله، ثم قرر بناءً على أدائه في مكدسك، لا فقط على نتيجته في مكدس شخص آخر.

DEV Community