Yusuf Khalidd

Posted on Jun 17 • Originally published at apidog.com

كيفية استخدام GLM-5.2 مجانًا

GLM-5.2 هو نموذج أوزان مفتوحة قوي يمكنك تشغيله اليوم، وترخيص MIT يعني أن الأوزان نفسها مجانية. لكن “مجاني” لا يعني “سهل”: النموذج من نوع Mixture of Experts بحجم يقارب 753 مليار معلمة، لذلك ستختار عمليًا بين الاستضافة الذاتية، أرصدة التجربة، أو أرخص مستوى مدفوع حسب العتاد والميزانية.

جرّب Apidog اليوم

إذا أردت القرار السريع: إن كان لديك عتاد قوي أو يمكنك استئجار GPU رخيص، شغّل الأوزان المفتوحة بنفسك. إن لم يكن لديك، ابدأ بأرصدة z.ai التجريبية أو خطة GLM Coding Plan Lite. لا يوجد مسار مجاني عبر OpenRouter لـ glm-5.2.

شجرة القرار السريعة

وضعك	أفضل مسار	التكلفة الحقيقية
لديك GPU قوي أو يمكنك استئجار واحد	استضافة ذاتية عبر Ollama أو vLLM	0 دولار للأوزان؛ تدفع كهرباء أو إيجار GPU
تريد تجربة بدون إعداد وبدون بطاقة	أرصدة تجريبية من z.ai أو طبقة محدودة المعدل	مجاني حتى انتهاء الأرصدة، تحقق من العرض الحالي
تريد أرخص مسار مدفوع مستقر	GLM Coding Plan Lite أو API مع مدخلات مخزنة مؤقتًا	بضعة دولارات شهريًا أو سنتات لكل طلب حسب الاستخدام
تريد الدفع حسب الاستخدام	OpenRouter API	1.40 دولار / مليون رمز إدخال، 4.40 دولار / مليون رمز إخراج

القاعدة العملية: مجاني تمامًا يعني استضافة ذاتية. شبه مجاني يعني أرصدة تجربة أو خطة Lite.

المسار 1: الاستضافة الذاتية لأوزان MIT المفتوحة

تتوفر أوزان GLM-5.2 على Hugging Face في zai-org/GLM-5.2. يمكنك تنزيلها وتشغيلها دون رسوم ترخيص بفضل MIT License.

لكن انتبه إلى المتطلبات: النموذج MoE بحجم يقارب 753B معلمة في BF16. حتى لو كان جزء فقط من الخبراء يُفعّل لكل رمز، يجب أن تكون الأوزان متاحة في الذاكرة. عمليًا، لن يكون تشغيله على لابتوب عادي خيارًا واقعيًا.

أمامك خياران عمليان:

استخدام نسخة مكممة 4-bit أو مشابهة لتقليل استهلاك الذاكرة.
استئجار مثيل متعدد وحدات GPU بالساعة وتشغيله عند الحاجة فقط.

بالتالي، “مجاني” هنا يعني عدم دفع تكلفة ترخيص، وليس عدم وجود تكلفة عتاد أو كهرباء أو GPU.

تشغيل GLM-5.2 باستخدام Ollama

Ollama هو أبسط مسار للتجربة المحلية. يتوفر GLM-5.2 في مكتبة Ollama.

# اسحب النموذج، وتوقع تنزيلًا كبيرًا
ollama pull glm-5.2:cloud

بعد التشغيل، يمكنك استدعاء واجهة Ollama المتوافقة مع OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Write a Python function to parse an RFC 3339 timestamp."
      }
    ]
  }'

راقب RAM وVRAM أثناء التجربة. إذا اضطر النظام إلى الاعتماد على القرص بشكل مكثف، ستصبح الاستجابة بطيئة جدًا. النسخ المكممة، الذاكرة الموحدة الكبيرة، أو التوزيع على أكثر من GPU هي ما يجعل التجربة قابلة للاستخدام.

لإعداد محلي أعمق، راجع تشغيل GLM-5 محليًا مجانًا وGLM-5 مجانًا باستخدام Ollama. نفس الأنماط تنطبق غالبًا، مع استبدال وسم النموذج إلى glm-5.2.

تشغيل GLM-5.2 باستخدام vLLM

إذا كنت تريد خدمة طلبات متعددة أو بناء API داخلي، استخدم vLLM. يدعم vLLM توازي الموترات عبر عدة GPUs، وهو أقرب لمسار إنتاجي مع نموذج بهذا الحجم.

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model zai-org/GLM-5.2 \
  --tensor-parallel-size 8 \
  --max-model-len 131072

النقطة المهمة هنا:

--tensor-parallel-size 8 يفترض وجود 8 وحدات GPU.
اضبط الرقم حسب العتاد ونوع نقطة التفتيش، خصوصًا إن كنت تستخدم نسخة مكممة.
--max-model-len لا يجب أن يكون 1M دائمًا. سياق 1M رمز مكلف جدًا بسبب KV cache، لذلك اضبطه على الحد الذي يحتاجه تطبيقك فعليًا.

بعد التشغيل، ستحصل على خادم متوافق مع OpenAI، ويمكن لأي عميل يستخدم Chat Completions الاتصال به.

المسار 2: أرصدة التجربة من z.ai

إذا لم يكن لديك عتاد مناسب، ابدأ بمنصة z.ai. غالبًا يحصل المستخدمون الجدد على أرصدة تجريبية أو طبقة محدودة المعدل للتجربة الخفيفة، لكن الشروط تتغير، لذلك تحقق من العرض الحالي من صفحة GLM-5.2.

التدفق العملي:

أنشئ حسابًا على z.ai.
أنشئ API key.
أرسل طلبًا إلى نقطة النهاية المتوافقة مع OpenAI.

مثال:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {
        "role": "user",
        "content": "Explain IndexShare sparse attention in two sentences."
      }
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max"
  }'

ملاحظات تنفيذية:

thinking يفعّل أو يعطّل نمط التفكير.
للبرمجة، توصي z.ai باستخدام reasoning_effort: "max".
توجد مستويات جهد مثل high وmax.
طول الإخراج موثق حتى 128K وفقًا لوثائق z.ai، لكن تعامل معه كحد يجب التحقق منه في حسابك وبيئتك.

للمعاملات الكاملة، راجع دليل z.ai GLM-5.2.

المسار 3: أرخص المستويات المدفوعة

عند انتهاء الأرصدة، لديك خياران منخفضا التكلفة: خطة برمجة ثابتة أو API بالدفع حسب الاستخدام.

GLM Coding Plan Lite

إذا كان استخدامك الأساسي هو البرمجة، فخطة GLM Coding Plan Lite غالبًا هي الخيار الأرخص والأكثر قابلية للتوقع. الأسعار المنشورة تختلف حسب المصدر والوقت، لذلك تحقق دائمًا من z.ai قبل الاعتماد على رقم محدد.

الميزة المهمة للمطورين: الخطة تتيح نقطة نهاية متوافقة مع Anthropic، لذلك يمكنك توجيه أدوات مثل Claude Code أو Cline أو Cursor إلى GLM-5.2.

إعداد Claude Code مثلًا:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

شرح سريع:

glm-5.2[1m] يستخدم نسخة سياق 1M.
API_TIMEOUT_MS يجب أن يكون عاليًا للمهام طويلة السياق.
ANTHROPIC_BASE_URL يوجه الأداة إلى واجهة z.ai بدل Anthropic.

لإعدادات الوكلاء، راجع GLM-5.2 مع Claude Code و Cline و Cursor وGLM-5.1 مع Claude Code.

API بالدفع حسب الاستخدام والمدخلات المخزنة مؤقتًا

إذا كنت تبني تطبيقًا ولا تريد اشتراكًا شهريًا، استخدم API بالدفع حسب الاستخدام. حسب OpenRouter، السعر هو:

1.40 دولار لكل مليون رمز إدخال.
4.40 دولار لكل مليون رمز إخراج.

ينطبق ذلك عند الاتصال عبر OpenRouter، وتوجد تسعيرات مشابهة عند الاتصال المباشر حسب الخطة الحالية لدى z.ai.

التحسين العملي هنا هو التخزين المؤقت للمدخلات. إذا كان تطبيقك يعيد استخدام نفس البادئة، مثل system prompt طويل أو قاعدة تعليمات برمجية ثابتة، فستدفع التكلفة الكاملة مرة ثم تكلفة أقل للسياق المعاد استخدامه. تشير مصادر مثل VentureBeat إلى رقم يقارب 0.26 دولار لكل مليون رمز للمدخلات المخزنة مؤقتًا، لكن تحقق من التسعير الرسمي قبل البناء المالي عليه.

الأهم: لا توجد طبقة OpenRouter مجانية لـ glm-5.2. OpenRouter رخيص، لكنه ليس مجانيًا.

مقارنة عملية: مجاني مقابل شبه مجاني

المسار	التكلفة الأولية	التكلفة المستمرة	جهد الإعداد	الأفضل لـ
Ollama / vLLM ذاتيًا	العتاد أو إيجار GPU	كهرباء أو ساعات GPU	عالٍ	الخصوصية والتحكم الكامل
أرصدة z.ai	لا شيء	مجاني حتى انتهاء الأرصدة	منخفض	التجربة السريعة
GLM Coding Plan Lite	اشتراك شهري منخفض، تحقق من السعر	شهري ثابت	منخفض	البرمجة اليومية في Claude Code/Cline/Cursor
API + cache	لا شيء	حسب الرموز	منخفض	التطبيقات ذات السياق المتكرر

نمط قرار بسيط:

اختبر الفكرة بأرصدة z.ai.
إن كان الاستخدام برمجيًا يوميًا، جرّب خطة Lite.
إن كنت تحتاج خصوصية أو لا تريد فوترة لكل رمز، اتجه للاستضافة الذاتية.
إن كنت تبني منتجًا يعيد استخدام نفس السياق، استخدم API مع caching.

اختبار نقطة نهاية GLM-5.2 باستخدام Apidog

قبل توصيل GLM-5.2 بتطبيقك، اختبر نقطة النهاية نفسها. قد تكون:

خادم Ollama محليًا.
خادم vLLM داخليًا.
واجهة z.ai السحابية.
OpenRouter API.

Apidog مناسب لهذا النوع من الاختبارات لأنه يتيح لك إرسال الطلبات، فحص الاستجابات المتدفقة، حفظ الطلبات كحالات قابلة لإعادة الاستخدام، ومحاكاة الاستجابات أثناء تطوير الواجهة الأمامية.

مثال إعداد سريع داخل Apidog:

Method: POST
URL: http://localhost:11434/v1/chat/completions
Header: Content-Type: application/json

Body:

{
  "model": "glm-5.2",
  "messages": [
    {
      "role": "user",
      "content": "Generate a TypeScript function that validates an email address."
    }
  ]
}

لـ z.ai، استخدم عنوان الخدمة السحابية وأضف:

Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

يمكنك تنزيل Apidog واستخدامه كطبقة اختبار ثابتة لأي مسار تختاره.

الأسئلة الشائعة

هل GLM-5.2 مجاني فعلًا؟

الأوزان مجانية بترخيص MIT، لذلك لا توجد تكلفة ترخيص عند الاستضافة الذاتية. لكن ستدفع تكلفة العتاد أو الكهرباء أو استئجار GPU. واجهات API المستضافة مدفوعة عادة، مع أرصدة تجربة أو حدود مجانية حسب العرض الحالي لدى z.ai.

هل يمكن تشغيل GLM-5.2 على لابتوب عادي باستخدام Ollama؟

عمليًا، لا. النموذج بحجم يقارب 753B معلمة، وحتى النسخ المكممة تحتاج ذاكرة كبيرة. تحتاج محطة عمل بذاكرة عالية، جهازًا بذاكرة موحدة كبيرة، أو GPU مستأجر. راجع الدليل المحلي لفهم المتطلبات.

هل توجد طبقة OpenRouter مجانية لـ GLM-5.2؟

لا. OpenRouter يقدم GLM-5.2 بالدفع حسب الاستخدام. السعر المذكور هو 1.40 دولار لكل مليون رمز إدخال و4.40 دولار لكل مليون رمز إخراج. هو خيار رخيص، وليس مجانيًا.

ما أرخص طريقة مدفوعة لاستخدام GLM-5.2 للبرمجة؟

غالبًا GLM Coding Plan Lite، لأنها توفر تكلفة شهرية ثابتة وتدعم أدوات مثل Claude Code وCline وCursor عبر واجهة متوافقة مع Anthropic. تحقق من السعر الحالي على z.ai.

كيف يقارن GLM-5.2 من حيث التكلفة مع GPT-5.5؟

وفقًا لـ VentureBeat، يقدم GLM-5.2 أداءً قويًا في مهام البرمجة طويلة الأفق بتكلفة أقل بكثير. للتفاصيل، راجع معايير GLM-5.2 والمقارنة المباشرة.

إلى أين تذهب بعد ذلك

اختر المسار بناءً على قيودك:

تريد أقل تكلفة ترخيص وخصوصية أعلى: استضافة ذاتية.
تريد تجربة سريعة: أرصدة z.ai.
تريد استخدامًا يوميًا للبرمجة: GLM Coding Plan Lite.
تبني تطبيقًا بسياق متكرر: API مع caching.

إذا كنت لا تزال تقيم النموذج، ابدأ بـ ما هو GLM-5.2 ومقارنته مع GLM-5.1. وعند الانتقال للتنفيذ، استخدم دليل GLM-5.2 API وتفاصيل التسعير.

DEV Community