Yusuf Khalidd

Posted on Jun 17 • Originally published at apidog.com

تسعير GLM-5.2: تكلفة API، المدخلات المخزنة مؤقتًا، وفئات خطط ترميز GLM (2026)

GLM-5.2 خيار منخفض التكلفة لتشغيل نموذج برمجة متقدم. تقدمه Z.ai (Zhipu AI) بأوزان مفتوحة تحت ترخيص MIT، مع نافذة سياق 1M-token وتسعير API أقل بكثير من كثير من النماذج المغلقة. في هذا الدليل ستجد أسعار الرموز، طريقة حساب التخزين المؤقت، أمثلة تكلفة عملية، إعداد خطة GLM Coding Plan، وكيف تقرر إن كان GLM-5.2 أرخص لسيناريو عملك.

جرّب Apidog اليوم

ملاحظة مهمة قبل الحسابات: أسعار نماذج الذكاء الاصطناعي تتغير بسرعة، وبعض تفاصيل GLM Coding Plan تختلف بين المصادر الثانوية. أي رقم غير مؤكد مذكور كتقدير، ويجب التحقق من السعر المباشر من z.ai قبل اعتماد ميزانية إنتاجية.

تكلفة واجهة برمجة تطبيقات GLM-5.2 API بسرعة

ابدأ من تسعير الاستخدام حسب الرموز، لأنه أوضح جزء ومؤكد عبر قائمة OpenRouter العامة.

العنصر	السعر	المصدر
رموز الإدخال	$1.40 / 1M	مؤكد عبر OpenRouter
رموز الإخراج	$4.40 / 1M	مؤكد عبر OpenRouter
المدخلات المخزنة مؤقتًا	~$0.26 / 1M	VentureBeat، تخصيص

بمعنى آخر:

تكلفة رمز الإدخال = 0.0000014 دولار
تكلفة رمز الإخراج = 0.0000044 دولار

الإخراج أغلى بحوالي 3.1× من الإدخال. لذلك، عند بناء وكيل برمجي أو مساعد دردشة، لا تراقب حجم السياق فقط؛ راقب أيضًا طول الإجابات ورموز التفكير.

سعر الإدخال المخزن مؤقتًا، حوالي 0.26 دولار / 1M token، هو أهم عامل لتقليل التكلفة في تطبيقات الوكلاء والمحادثات الطويلة. هذا الرقم من تقارير VentureBeat وليس بطاقة أسعار طرف أول، لذلك تعامل معه كتقدير حتى تؤكده من المزود.

لا يوجد مسار مجاني عبر OpenRouter لنموذج glm-5.2. تشغيل الأوزان المفتوحة على عتادك الخاص يختلف عن API مجاني. إن أردت هذا المسار، راجع دليل كيفية استخدام GLM-5.2 مجانًا ومقال تشغيل GLM-5 محليًا مجانًا.

كيف تستفيد من خصم المدخلات المخزنة مؤقتًا

التخزين المؤقت للموجهات هو أفضل نقطة تحسين في تكلفة GLM-5.2.

الفكرة بسيطة: إذا كنت ترسل بادئة طويلة وثابتة في كل طلب، مثل:

موجه النظام
تعريفات الأدوات
تعليمات وكيل البرمجة
ملفات مستودع لا تتغير
مستند طويل تستخدمه في RAG

يمكن للمزود تخزين هذه البادئة بعد معالجتها. في الطلبات التالية، يُحسب الجزء المخزن مؤقتًا بسعر أقل، تقريبًا:

السعر الكامل للإدخال:        $1.40 / 1M token
سعر الإدخال المخزن مؤقتًا:  ~$0.26 / 1M token
الخصم التقريبي:             ~81%

نمط موجه مناسب للتخزين المؤقت

ضع الأجزاء الثابتة أولًا، والمتغيرات في النهاية:

[تعليمات النظام الثابتة]
[تعريفات الأدوات الثابتة]
[سياق المستودع أو المستند الثابت]

---
[سؤال المستخدم الحالي]
[الملف أو الجزء المتغير]

هذا مهم لأن التخزين المؤقت يعتمد غالبًا على البادئة. إذا غيرت بداية الموجه في كل مرة، ستفقد فائدة التخزين المؤقت.

أين يظهر الفرق؟

وكلاء البرمجة: أدوات مثل Claude Code و Cline و Cursor ترسل تعليمات وأدوات وسياق مستودع في كل دورة. تخزين هذه المقدمة مؤقتًا يقلل فاتورة الإدخال. راجع دليل GLM-5.2 مع Claude Code و Cline و Cursor.
RAG والأسئلة على المستندات: إذا كنت تسأل عدة أسئلة على نفس المستند، خزّن المستند كبادئة ثابتة وغيّر السؤال فقط.
المحادثات الطويلة: تاريخ المحادثة يصبح بادئة متزايدة. التخزين المؤقت يخفض تكلفة “تذكر” السياق.

قاعدتان عمليتان:

اجعل المحتوى المعاد استخدامه في بداية الموجه.
نفّذ الطلبات المتقاربة زمنيًا؛ ذاكرات التخزين المؤقت قد تنتهي صلاحيتها.

تعطيل التفكير للتحكم في التكلفة

GLM-5.2 نموذج استدلال يدعم مستويات تفكير مثل High و Max. توصي Z.ai باستخدام Max للبرمجة، لكن تذكّر أن رموز التفكير تُحسب ضمن الإخراج، والإخراج هو الجزء الأغلى:

$4.40 / 1M output tokens

إذا كانت المهمة بسيطة، عطّل التفكير.

مثال طلب API:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Reformat this JSON and return it."
    }
  ],
  "thinking": {
    "type": "disabled"
  }
}

استخدم هذا القرار العملي:

نوع المهمة	إعداد التفكير المقترح
تنسيق JSON، استخراج حقول، تصنيف بسيط، إعادة كتابة قصيرة	تعطيل التفكير
تحليل كود يومي، شرح خطأ، اقتراح refactor محدود	High
مهام برمجة طويلة، رياضيات صعبة، تصحيح متعدد الملفات	Max

الهدف ليس تعطيل التفكير دائمًا، بل استخدامه فقط عندما يرفع الدقة بما يبرر تكلفة الإخراج. مرجع المعاملات، بما في ذلك reasoning_effort والبث، موجود في دليل واجهة برمجة تطبيقات GLM-5.2، كما يشرح الدليل التفصيلي لواجهة برمجة تطبيقات GLM-5 الشكل المتوافق مع OpenAI عند الترحيل.

أمثلة تكلفة عملية

الصيغة العامة:

تكلفة الإدخال = input_tokens × 1.40 / 1,000,000
تكلفة الإخراج = output_tokens × 4.40 / 1,000,000

المثال 1: جلسة برمجة واحدة بحجم 100 ألف رمز

افترض أن وكيل البرمجة يقرأ 100,000 رمز من السياق ويولد 20,000 رمز من الكود والاستدلال.

الإدخال: 100,000 × 1.40 / 1,000,000 = $0.140
الإخراج: 20,000 × 4.40 / 1,000,000 = $0.088
المجموع: ~$0.23

المثال 2: نفس الجلسة مع التخزين المؤقت

افترض أن 80,000 رمز من الإدخال بادئة ثابتة مخزنة مؤقتًا، و20,000 رمز جديدة.

المدخلات المخزنة مؤقتًا: 80,000 × 0.26 / 1,000,000 = $0.021
المدخلات الجديدة:        20,000 × 1.40 / 1,000,000 = $0.028
الإخراج:                 20,000 × 4.40 / 1,000,000 = $0.088
المجموع: ~$0.14

هنا خفّض التخزين المؤقت التكلفة من حوالي $0.23 إلى $0.14، أي تقريبًا 40%.

المثال 3: روبوت دعم مع تعطيل التفكير

روبوت يعالج 500 رسالة يوميًا. كل طلب يحتوي على 2,000 رمز إدخال ويرجع 300 رمز إخراج، مع تعطيل التفكير.

الإدخال: 500 × 2,000 × 1.40 / 1,000,000 = $1.40
الإخراج: 500 × 300 × 4.40 / 1,000,000 = $0.66
المجموع اليومي: ~$2.06
المجموع الشهري التقريبي: ~$62

هذه أرقام تقديرية بناءً على الأسعار المعلنة. التكلفة الفعلية تعتمد على طول المخرجات، مستوى التفكير، ونسبة الإدخال التي تصيب الذاكرة المؤقتة.

مستويات GLM Coding Plan

إذا كنت تستخدم وكيل برمجة طوال اليوم، فقد تكون خطة اشتراك أرخص من الدفع لكل طلب API. تقدم Z.ai خطة GLM Coding Plan بمستويات مثل Lite و Pro و Max و Team، ويمكن استخدامها مع Claude Code وأدوات مشابهة عبر نقطة نهاية متوافقة مع Anthropic.

مفتاح الخطة يختلف عن مفتاح API القياسي. لربط GLM-5.2 مع Claude Code، استخدم نقطة نهاية البرمجة وحدد نسخة السياق 1M عبر لاحقة النموذج [1m].

مثال إعداد:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

النقطة المهمة هنا هي:

export API_TIMEOUT_MS=3000000

بدون مهلة طويلة، قد ينهي Claude Code الطلب قبل أن يكمل GLM-5.2 معالجة سياق كبير. بعض المصادر تعرض عنوانًا آخر مثل:

open.z.ai/api/paas/v4

لذلك تحقق من المضيف الدقيق من لوحة Z.ai قبل استخدامه في الإنتاج.

لإعداد Cline و Cursor أيضًا، راجع دليل وكلاء برمجة GLM-5.2، ومقال GLM-5.1 مع Claude Code للجيل السابق.

هل GLM-5.2 أرخص من GPT-5.5؟

نعم في API المدفوع حسب الاستخدام، وبهامش كبير حسب الأسعار المتاحة.

أفادت VentureBeat بأن GLM-5.2 “يتفوق على GPT-5.5 في البرمجة طويلة الأفق بحوالي 1/6 التكلفة”. هذا ادعاء من VentureBeat وليس قياسًا من Apidog، كما أنه يجمع الأداء مع السعر، لذلك استخدمه كمؤشر قيمة عام وليس كنسبة ثابتة لكل رمز.

على مستوى بطاقة الأسعار:

GLM-5.2 input:  $1.40 / 1M tokens
GLM-5.2 output: $4.40 / 1M tokens

النماذج المغلقة المتقدمة من OpenAI و Anthropic و Google تكون غالبًا أعلى من ذلك في مستويات الاستدلال العليا، وهذا سبب ظهور وصف “جزء من التكلفة”.

للمقارنة الرقمية عبر السرعة والتكلفة، راجع GLM-5 مقابل DeepSeek مقابل GPT-5 من حيث السرعة والتكلفة، والمقارنة الأوسع GLM-5.1 مقابل Claude و GPT و Gemini و DeepSeek.

أما مقارنة الاشتراكات فهي أقل مباشرة. إذا كان مستوى GLM Coding Plan الكثيف قريبًا من 80 دولارًا شهريًا، فهو يدخل نطاق بعض اشتراكات البرمجة الفردية من مزودين آخرين. عندها يعتمد القرار على:

جودة النموذج في مهامك
حدود الاستخدام الفعلية
أداء الوكيل مع مستودعك
عدد الطلبات اليومية

للمقارنة بين الخطط، راجع Claude Code مقابل Codex مقابل Cursor مقابل MiniMax Plan مقابل GLM Plan.

تحذير حول المعايير: نتائج مثل SWE-bench Pro 62.1 و Terminal-Bench 2.1 بنسبة 81.0 و MCP-Atlas 77.0 هي نتائج منشورة من Z.ai. التفاصيل موجودة في الغوص العميق في معايير GLM-5.2، والمقارنة المباشرة في GLM-5.2 مقابل GPT-5.5 و Claude Opus و Gemini.

أي مسار تسعير تختار؟

استخدم هذا القرار السريع:

حالتك	الخيار الأفضل
استخدام متقطع أو منخفض الحجم	API مدفوع حسب الاستخدام
وكيل برمجة طوال اليوم	GLM Coding Plan
خصوصية، تشغيل دون إنترنت، أو تكلفة رموز صفرية	استضافة الأوزان المفتوحة بنفسك

1. استخدام منخفض الحجم

اختر API المدفوع حسب الاستخدام إذا كنت تنفذ طلبات محدودة أو تجارب. ستدفع فقط مقابل ما تستخدمه.

2. برمجة يومية عبر وكيل

اختر GLM Coding Plan إذا كنت تستخدم Claude Code أو Cline أو Cursor لساعات يوميًا. الاشتراك قد يصبح أوفر من مئات الطلبات اليومية المدفوعة حسب الرموز، لكن تحقق من سعر المستوى وحدوده أولًا.

3. تشغيل محلي

إذا كانت الخصوصية أو عدم الاتصال بالإنترنت أهم من سهولة API، شغّل الأوزان المفتوحة محليًا. لا توجد فاتورة لكل رمز، لكنك تدفع تكلفة العتاد والطاقة والصيانة. ابدأ من تشغيل GLM-5 محليًا مجانًا أو GLM-5 مجانًا باستخدام Ollama.

بغض النظر عن المسار، أهم عاملين لتقليل التكلفة هما:

تخزين البادئات الثابتة مؤقتًا.
تقليل أو تعطيل التفكير عندما لا تحتاجه المهمة.

اختبار تكلفة GLM-5.2 قبل الالتزام

قبل اختيار خطة، اختبر موجهاتك الحقيقية. وجّه أي عميل متوافق مع OpenAI إلى نقطة نهاية GLM-5.2 وراقب:

عدد رموز الإدخال
عدد رموز الإخراج
زمن الاستجابة
تأثير تعطيل التفكير
تأثير إعادة استخدام نفس البادئة

يمكنك استخدام Apidog لهذا الغرض. Apidog منصة API متكاملة لتصميم واختبار وتوثيق واجهات البرمجة، ويمكنك من خلالها إرسال طلبات إلى:

https://api.z.ai/api/paas/v4/chat/completions

ثم فحص الاستجابة وعدد الرموز وحفظ الطلبات كمجموعة قابلة لإعادة الاستخدام أثناء مقارنة مستويات التفكير وسلوك التخزين المؤقت. يمكنك تنزيل Apidog إذا أردت قياس التكلفة على حركة مرورك الفعلية بدل الاعتماد على أمثلة نظرية.

الخلاصة: السعر المؤكد لـ GLM-5.2 API هو $1.40 / 1M للإدخال و$4.40 / 1M للإخراج. استخدم التخزين المؤقت للبادئات، واضبط مستوى التفكير لكل مهمة، وتحقق من سعر أي خطة برمجة مباشرة قبل الالتزام.

DEV Community