Yusuf Khalidd

Posted on Apr 16 • Originally published at apidog.com

تشغيل نماذج الذكاء الاصطناعي محليًا أم عبر واجهة برمجة التطبيقات: أيهما تختار؟

ملخص سريع

الذكاء الاصطناعي المحلي يعمل مباشرة على جهازك ويوفر الخصوصية ويخفض التكلفة لكل طلب، بينما الذكاء الاصطناعي عبر واجهة برمجة التطبيقات (API) يوفر سهولة البدء، قوة أعلى، وقابلية توسع فوري بدون إدارة البنية التحتية. تحتاج معظم الفرق إلى كلا النهجين. ستجد في هذا الدليل مقارنة عملية بالأرقام حول التكلفة، زمن الاستجابة، والقدرات لتختار الأنسب لمشروعك.

جرّب Apidog اليوم

مقدمة

جيما 4 (Gemma 4) أصبح يعمل الآن بشكل أصلي على iPhone. يمكنك دمج نموذج لغوي كامل في المتصفح بدون مفتاح API. هذه الإمكانيات لم تكن متاحة قبل فترة قصيرة، والآن أصبحت شائعة على HackerNews.

سابقًا، كان الخيار بسيطًا: النماذج الرائدة عبر API فقط، والباقي أضعف من أن يعتمد عليه. الآن، نماذج مثل Qwen2.5-72B وGemma 4 وDeepSeek-V3 تنافس فعليًا في الأداء. المطورون الذين اعتادوا على OpenAI API يعيدون التفكير، خاصةً في التطبيقات الحساسة للخصوصية أو التي تتطلب حجمًا عاليًا من العمليات.

هذه المقالة تركز على الحقائق العملية: أرقام حول التكلفة، الأداء، والقدرة لتستطيع اتخاذ قرار تقني واضح.

💡 إذا كنت تختبر تكاملات API للذكاء الاصطناعي (محليًا أو سحابيًا)، سيناريوهات اختبار Apidog تدعم الطرفين. يمكنك توجيهها لنقطة نهاية خادم llama-server المحلي أو إلى /v1/chat/completions من OpenAI وتشغيل نفس الاختبارات. لمزيد من التفاصيل راجع [internal: api-testing-tutorial].

ماذا يعني "تشغيل الذكاء الاصطناعي محليًا" فعليًا

الذكاء الاصطناعي المحلي ليس نمطًا واحدًا، بل ثلاثة أنماط رئيسية:

1. تشغيل النموذج على الجهاز: النموذج يعمل بالكامل على جهاز المستخدم (بدون خادم)، مثل Gemma 4 على iPhone أو Ollama على MacBook. لا حاجة للاتصال بالإنترنت بعد تحميل النموذج.

2. خادم مستضاف ذاتيًا: النموذج يعمل على جهاز خاص بك (محلي أو افتراضي)، وتتعرض API للاستخدام. أمثلة: llama-server, Ollama, vLLM.

3. سحابة خاصة: تنشر النموذج على بنية تحتية سحابية خاصة بك (AWS Bedrock, Azure Private Endpoints, GCP Vertex AI). تحكم أعلى، إدارة بنية تحتية أقل.

هذه المقالة تركز على الاستضافة الذاتية مقابل API العامة، وهو القرار الأكثر شيوعًا للمطورين.

مقارنة التكلفة

الذكاء الاصطناعي المحلي يتفوق في الأحجام الكبيرة من العمليات.

تسعير واجهات API العامة (أبريل 2026):

النموذج	الإدخال (لكل مليون رمز)	الإخراج (لكل مليون رمز)
GPT-4o	$2.50	$10.00
Claude 3.5 Sonnet	$3.00	$15.00
Gemini 1.5 Pro	$1.25	$5.00
GPT-4o mini	$0.15	$0.60
Claude 3 Haiku	$0.25	$1.25

تكلفة الاستضافة الذاتية (Qwen2.5-72B على A100 80GB):
سعر جهاز A100 80GB من Lambda Labs حوالي 1.99 دولار/ساعة. النموذج يخدم ~200 رمز/ثانية. هذا يعادل 720 ألف رمز/ساعة أو تقريبًا 0.0028 دولار لكل ألف رمز إجمالي (إدخال+إخراج). GPT-4o يفرض 0.01 دولار لكل ألف رمز إخراج.

متى تتفوق الاستضافة الذاتية؟

إذا كنت تعالج أكثر من 70 ألف رمز إخراج يوميًا بشكل ثابت، الاستضافة الذاتية أرخص من GPT-4o.
لنماذج أخف (Gemma 4 12B على RTX 4090)، نقطة التعادل مع GPT-4o mini عند 15 ألف رمز إخراج يوميًا.

مقارنة زمن الاستجابة

زمن الوصول للرمز الأول (TTFT):

على A100 مخصص: TTFT لمطالبة 1K رمز بنموذج 72B = 800 مللي ثانية - 1.5 ثانية.
واجهات OpenAI API: TTFT عادةً 300-800 مللي ثانية لنفس المدخلات.
على الجهاز (iPhone/Apple Silicon): Gemma 4 يعطي TTFT بين 200-400 مللي ثانية.

معدل الإنتاجية (Throughput):

جهاز A100 مع نموذج 72B يخدم مستخدمًا واحدًا بكفاءة، ويتدهور مع التوازي ما لم تستخدم batching.
واجهات API تدير التوازي تلقائيًا.

التدفق (Streaming):

كلا النهجين يدعمانه. التشغيل على الجهاز يخلو من مشاكل الشبكة.

الملخص:

التشغيل على الجهاز = زمن استجابة أدنى.
الاستضافة الذاتية = إنتاجية عالية عند التوسعة الصحيحة (vLLM).
واجهة API = قدرة تلقائية على التعامل مع الأحمال المفاجئة.

مقارنة القدرات

المهام المعقدة: لا تزال GPT-4o وClaude 3.5 Sonnet تتفوق في اختبارات الاستدلال المتقدم (MMLU, HumanEval). الفجوة تقلصت مع Qwen2.5-72B وDeepSeek-V3، لكنها ما زالت موجودة.

توليد الأكواد: DeepSeek-Coder-V2 وQwen2.5-Coder-32B ينافسان GPT-4o في معايير الأكواد. يمكنك استخدام نموذج متخصص للكود في الاستضافة الذاتية.

طول السياق: نماذج API تدعم حتى مليون رمز. معظم النماذج الذاتية تقف عند 32K-128K رمز.

المهام المتعددة الأنماط (Multimodal): نماذج API مثل GPT-4o وGemini 1.5 Pro تدعم الصور والصوت والفيديو. النماذج مفتوحة المصدر أقل جودة في هذا المجال.

استدعاء الوظائف: OpenAI وAnthropic أكثر موثوقية. النماذج مفتوحة المصدر تدعم الأدوات لكن بشكل أقل استقرارًا.

الخصوصية والتحكم في البيانات

عبر API عامة:

بياناتك تغادر شبكتك.
سياسة الاحتفاظ بالبيانات الخاصة بالمزود تنطبق عليك (مثلاً OpenAI تحتفظ بالمدخلات 30 يومًا).
خاضع لشروط الخدمة الخاصة بالمزود.
في القطاعات المنظمة (الصحة، المالية)، قد لا يكون مقبولًا.

الاستضافة الذاتية:

كل البيانات تبقى على بنيتك.
لا يحتفظ طرف ثالث بالبيانات.
تحكم كامل وتوافق أسهل (GDPR/HIPAA).
لتطبيقات تتعامل مع بيانات حساسة (صحية، قانونية، أكواد خاصة)، الاستضافة الذاتية غالبًا إلزامية.

كيفية اختبار تكاملات الذكاء الاصطناعي بغض النظر عن مكان تشغيل النموذج

واجهات برمجة API لنماذج مثل Ollama وllama-server متوافقة مع OpenAI، مما يسمح بإجراء نفس سيناريوهات الاختبار محليًا أو على السحابة عبر Apidog.

مثال سيناريو اختبار JSON:

{
  "scenario": "اختبار دخاني لإكمال الدردشة",
  "environments": {
    "local": {"base_url": "http://localhost:11434"},
    "production": {"base_url": "https://api.openai.com"}
  },
  "steps": [
    {
      "name": "إكمال أساسي",
      "method": "POST",
      "url": "{{base_url}}/v1/chat/completions",
      "body": {
        "model": "{{model_name}}",
        "messages": [{"role": "user", "content": "قل 'الاختبار اجتاز' ولا شيء آخر"}],
        "max_tokens": 20
      },
      "assertions": [
        {"field": "status", "operator": "equals", "value": 200},
        {"field": "response.choices[0].message.content", "operator": "contains", "value": "test passed"},
        {"field": "response.usage.total_tokens", "operator": "less_than", "value": 50}
      ]
    }
  ]
}

قم بتشغيل السيناريو على مثيل Ollama المحلي أثناء التطوير، ثم على OpenAI API في CI. إذا لم يعمل، تحقق من:

اسم النموذج (Ollama: qwen2.5:72b, OpenAI: gpt-4o)
بنية استجابة استدعاء الوظيفة
تنسيق حدث التدفق

ميزة Smart Mock في Apidog تتيح محاكاة السلوك لإجراء اختبارات CI بدون GPU. راجع [internal: how-to-build-tiny-llm-from-scratch] لفهم اختلافات الاستجابة بين النماذج.

إعداد خادم نموذج محلي في 10 دقائق

لتجربة الاستضافة الذاتية بسرعة مع Ollama:

# تثبيت Ollama
curl -fsSL https://ollama.com/install.sh | sh

# سحب نموذج (Gemma 4 12B)
ollama pull gemma4:12b

# تشغيل الخادم (واجهة API متوافقة مع OpenAI على المنفذ 11434)
ollama serve

# اختبار التشغيل
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [{"role": "user", "content": "مرحبًا"}]
  }'

للإنتاج وتعدد المستخدمين:

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-72B-Instruct-AWQ \
  --quantization awq \
  --max-model-len 32768

واجهة API تظهر على المنفذ 8000. وجه Apidog إلى http://your-server:8000 لتشغيل الاختبارات.

متى تختار كل نهج

السيناريو	محلي	API
معالجة دفعات كبيرة (> 100K رمز/يوم)	أرخص	مكلف
بيانات حساسة للخصوصية	مطلوب	محفوف بالمخاطر
أقل زمن استجابة على الجهاز	الأفضل	غير ممكن
الحاجة إلى قدرة نموذج رائد	غير كافٍ	مطلوب
أعباء عمل متقطعة متغيرة	معقد في التوسع	يتعامل تلقائيًا
لا تتوفر وحدة معالجة رسوميات	صعب	سهل
بيئة التطوير/الاختبار	ممتاز (Ollama)	يكلف مالاً
مهام متعددة الأنماط	محدود	دعم كامل
الامتثال للصناعات المنظمة	أسهل	يتطلب DPA

النصيحة العملية: استخدم API عامة في الإنتاج (Claude أو GPT-4o للمهام الحرجة، Haiku أو 4o-mini للمهام الرخيصة والكثيفة)، وأداة Ollama محليًا للتطوير والاختبار. بذلك تحصل على أعلى جودة في الإنتاج مع تكلفة صفرية في التطوير، وAPI متوافقة مع OpenAI في كل مكان.

راجع [internal: open-source-coding-assistants-2026] لمعرفة كيف تتكامل أدوات البرمجة مفتوحة المصدر مع الذكاء الاصطناعي المحلي.

الخلاصة

الاختيار بين الذكاء الاصطناعي المحلي وAPI ليس قرارًا ثنائيًا. يعتمد على حجم العمل، متطلبات الخصوصية، زمن الاستجابة، ومستوى القدرات المطلوبة.

ابدأ مع API عامة، وانتقل إلى الاستضافة الذاتية عند تجاوز فاتورتك الشهرية 200-300 دولار، واستخدم Ollama محليًا من اليوم الأول. حافظ على الكود مستقلًا عن المزود عبر API متوافقة مع OpenAI.

اختبر البيئتين باستمرار باستخدام Apidog لتجنب الفروق غير المتوقعة بين النموذج المحلي والسحابي قبل الإنتاج.

الأسئلة الشائعة

ما هي أقل وحدة معالجة رسوميات (GPU) لتشغيل نموذج محلي مفيد؟

بطاقة RTX 3060 (12GB VRAM) تشغل Qwen2.5-7B أو Gemma 4 4B بكفاءة. RTX 4090 (24GB VRAM) تدير معظم نماذج 14B-20B INT4 ونماذج 34B INT2. لنماذج 72B تحتاج وحدتي 24GB أو A100/H100 واحدة.

هل يمكنني تشغيل الذكاء الاصطناعي المحلي على Apple Silicon؟

نعم، Ollama يدعم Apple Silicon ويستخدم Neural Engine. M3 Pro (18GB) يشغل Qwen2.5-14B، وM4 Max (128GB) يشغل نماذج 70B.

هل جودة إخراج النموذج المحلي كافية للإنتاج؟

لتوليد الأكواد، التلخيص، واستخراج البيانات المنظمة: نعم مع 32B+. للاستدلال المعقد أو المهام الدقيقة: لا تزال نماذج API أفضل.

هل تدعم النماذج المحلية استدعاء الوظائف؟

نعم، مثل Llama 3.1 وQwen2.5 وMistral، لكن الموثوقية أقل من GPT-4o أو Claude 3.5 Sonnet في سلاسل الأدوات المعقدة. اختبر بدقة مع Apidog قبل الاعتماد عليها.

كم تكلفة استضافة نموذج 70B ذاتيًا على AWS؟

جهاز p4d.24xlarge (8x A100 40GB) = 32.77 دولار/ساعة عند الطلب. g5.2xlarge (1x A10G 24GB) = 1.21 دولار/ساعة يشغل نموذج 14B INT4. الحجوزات المسبقة توفر 30-40% من التكلفة.

ما الفرق بين Ollama و llama.cpp؟

llama.cpp هو محرك الاستدلال الأساسي. Ollama يضيف إليه واجهة REST API، إدارة النماذج، وسطر أوامر سهل. استخدم Ollama للتطوير، وllama-server للتحكم الكامل في التكميم والأجهزة.

هل يمكنني التبديل بين النماذج المحلية ونماذج API دون تغيير الكود؟

نعم، إذا استخدمت عميل متوافق مع OpenAI. في بايثون:

openai.OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')

لـ Ollama، وغير base_url وapi_key للسحابة. استخدم متغيرات البيئة ولا تغير الكود.

DEV Community