DEV Community

Cover image for كيفية تشغيل DeepSeek V4 محليًا؟
Yusuf Khalidd
Yusuf Khalidd

Posted on • Originally published at apidog.com

كيفية تشغيل DeepSeek V4 محليًا؟

تم إطلاق DeepSeek V4 في 23 أبريل 2026 بأوزان مرخصة MIT على Hugging Face، ما يتيح لأي فريق امتلاك نموذج ذكاء اصطناعي متقدم محليًا. V4-Flash (284 مليار إجمالي، 13 مليار نشط) يعمل على زوج من H100s بتقنية FP8، بينما V4-Pro (1.6 تريليون إجمالي، 49 مليار نشط) يتطلب عنقودًا من البطاقات ويعمل بمنافسة قوية مع GPT-5.5 وClaude Opus 4.6 في البرمجة والاستنتاج.

جرّب Apidog اليوم

هذا الدليل عملي لتركيب وتشغيل DeepSeek V4 محليًا، ويغطي متطلبات الأجهزة، التكميم، إعداد vLLM وSGLang، تفعيل الأدوات، وسير اختبار باستخدام Apidog للتحقق من صحة الخادم قبل توجيه الإنتاج إليه.

للاطلاع على نظرة عامة على المنتج، راجع ما هو DeepSeek V4. لمسار API المستضاف، راجع كيفية استخدام DeepSeek V4 API. لمقارنة التكلفة، راجع تسعير DeepSeek V4 API.

باختصار

  • V4-Flash يعمل على 2 × H100 80GB FP8 أو 1 × H100 INT4. حجم الأوزان ~500GB FP8.
  • V4-Pro يتطلب 16+ H100 FP8 للإنتاج. غير مناسب للأجهزة الصغيرة.
  • vLLM أسرع طريق لخادم متوافق مع OpenAI (vllm>=0.9.0 يدعم V4).
  • SGLang بديل للمطورين الراغبين في أدوات متقدمة ومخرجات منظمة.
  • تكميم AWQ INT4 أو GPTQ INT4 يشغل V4-Flash على بطاقة واحدة 80GB بجودة أقل بنسبة ~5%.
  • استخدم Apidog للتوجيه إلى http://localhost:8000/v1 مع نفس التجارب المستخدمة في API المستضاف.

من يجب أن يستضيف ذاتيًا

الاستضافة الذاتية لـ V4 تناسب:

  1. الفرق الملتزمة بالامتثال (الصحة، المالية، القانونية، الدفاع؛ حيث لا يمكن للبيانات مغادرة الشبكة).
  2. أعباء العمل الكبيرة أو المستقرة (أكثر من 200 مليار توكن شهريًا).
  3. الفرق التي تحتاج الضبط الدقيق والبحث (الاستفادة من ترخيص MIT وإمكانية إعادة التوزيع التجاري).

لا يُنصح بها للمبتكرين أو من يجهل عمليات GPU أو لأعباء العمل الصغيرة (أقل من ~$200 شهريًا).

متطلبات الأجهزة

يستخدم DeepSeek V4 دقة مختلطة FP4 + FP8، ما يجعل استخدام الذاكرة أكثر كفاءة من الحسابات الساذجة.

النسخة إجمالي المعاملات المعاملات النشطة ذاكرة الفيديو FP8 ذاكرة الفيديو INT4 الحد الأدنى من البطاقات
V4-Flash 284 مليار 13 مليار ~500 جيجابايت ~140 جيجابايت 2 × H100 80GB (FP8) أو 1 × H100 (INT4)
V4-Pro 1.6 تيرابايت 49 مليار ~2.4 تيرابايت ~700 جيجابايت 16 × H100 80GB (FP8) أو 8 × H100 (INT4)

ملاحظات:

  • يجب توفير ذاكرة VRAM لجميع الخبراء (MoE)، وليس فقط النشطين.
  • يدعم H200 وMI300X بسلاسة؛ كلما زادت الذاكرة في البطاقة، قل العدد المطلوب.
  • وحدات معالجة الرسوميات الاستهلاكية (مثل RTX 5090) غير مناسبة، حتى مع INT4.
  • معالجات Apple Silicon (M3 Max، M4 Max مع 128GB) تدعم التشغيل البطيء لأغراض التطوير فقط.

الخطوة 1: تنزيل الأوزان

المستودعات الرسمية:

تثبيت أدوات التحميل:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False
Enter fullscreen mode Exit fullscreen mode

خصص ~500GB لـ V4-Flash وعدة تيرابايت لـ V4-Pro. لمستخدمين الصين: modelscope.cn أسرع.

الخطوة 2: اختيار محرك الخدمة

محركان رئيسيان:

  • vLLM: إنتاجية أعلى، واجهة متوافقة مع OpenAI، مجتمع ضخم. الخيار الافتراضي.
  • SGLang: أفضل لاستدعاء الأدوات والمخرجات المنظمة والسياق الطويل.

كلاهما يدعم V4 مباشرة بداية من الإصدارات الجديدة.

الخطوة 3: خدمة V4-Flash باستخدام vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

أهم العلامات:

  • --tensor-parallel-size 2: قسّم النموذج على بطاقتين.
  • --max-model-len 1048576: سياق 1 مليون توكن. قللها لتحرير VRAM.
  • --enable-prefix-caching: تسريع التكرار على البادئات.
  • --dtype auto: استخدام دقة FP8 المختلطة.

بعد التشغيل: أي عميل متوافق مع OpenAI يعمل على http://localhost:8000/v1.

الخطوة 4: خدمة V4-Pro باستخدام vLLM

يتطلب عنقودًا (كلاستر). مثال على 16 × H100:

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode

يمكنك زيادة/تقليل السياق حسب ذاكرة VRAM. استخدم التوازي الأنبوبي (pipeline) والموتر (tensor) عبر العقد للنشر الواسع.

الخطوة 5: الخدمة باستخدام SGLang (لاستخدام الأدوات)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000
Enter fullscreen mode Exit fullscreen mode

يوفر SGLang واجهة متوافقة مع OpenAI على http://localhost:30000/v1. يدعم استدعاء الأدوات وJSON بشكل مرن.

الخطوة 6: التكميم لبطاقة واحدة

لجعل V4-Flash يعمل على بطاقة واحدة 80GB (مع تراجع طفيف في الجودة):

AWQ (موصى به)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
Enter fullscreen mode Exit fullscreen mode

GPTQ

pip install auto-gptq
# اتبع خطوات تكميم GPTQ بنفس نمط AWQ.
Enter fullscreen mode Exit fullscreen mode

شغّل النموذج المكمم باستخدام vLLM مع --quantization awq أو --quantization gptq.

الخطوة 7: اختبار الخادم باستخدام Apidog

لا توجّه الإنتاج لخادم جديد مباشرة. تحقق أولاً عبر Apidog:

Apidog اختبار الخادم

  1. نزّل Apidog.
  2. أنشئ مجموعة موجهة إلى http://localhost:8000/v1/chat/completions.
  3. استخدم نفس المطالبة التي تستعملها مع API المستضاف وقارن النتائج جنبًا إلى جنب.
  4. اختبر نقطة نهاية بسياق 500K توكن للتحقق من ثبات ذاكرة التخزين المؤقت KV.
  5. شغّل تدفق استدعاء أداة كامل قبل ربط الـ agent loop.

يمكنك استخدام نفس مجموعة Apidog المخصصة لـ API المستضاف مع تغيير عنوان الـ URL فقط.

المراقبة وقابلية الملاحظة

تتبع هذه المقاييس من اليوم الأول:

  1. الرموز/الثانية (للمطالبة والتوليد) — vLLM يعرضها على /metrics بتنسيق Prometheus.
  2. استخدام GPU — استخدم nvidia-smi أو DCGM. إذا كان أقل من 70% غالبًا فراجع حجم الدفعات.
  3. معدل تكرار ذاكرة التخزين المؤقت KV — vLLM يبلغ عنه مع --enable-prefix-caching.
  4. زمن الاستجابة p50/p95/p99 — راقب ارتفاع p99 مع استقرار p50 لكشف عنق الزجاجة.

أرسلها إلى Grafana أو أي نظام مراقبة لديك.

الضبط الدقيق لنقاط الفحص الأساسية لـ V4

نقاط الفحص الأساسية مخصصة للتدريب المسبق المستمر وSFT. خط الأنابيب القياسي:

pip install "torch>=2.6" transformers accelerate peft trl

# SFT مع LoRA على V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128
Enter fullscreen mode Exit fullscreen mode

الضبط الدقيق للمعاملات الكاملة على V4-Pro مهمة بحثية ثقيلة. معظم الفرق ستكتفي بـ LoRA على V4-Flash-Base لمكاسب كبيرة بتكلفة منخفضة.

المزالق الشائعة

  1. OOM عند البدء: غالبًا بسبب --max-model-len أعلى من قدرة VRAM أو --tensor-parallel-size منخفض جدًا. قلل السياق أو زِد التوازي.
  2. طلب أول بطيء: vLLM يجمع النوى بكسل عند الاستدعاء الأول؛ قم بالإحماء بطلب وهمي.
  3. أخطاء تحليل الأدوات: ترميز DeepSeek يختلف عن OpenAI. استخدم SDK يدعم V4.
  4. أخطاء FP8 على بطاقات قديمة: A100 لا يدعم FP8. استخدم BF16 وتوقع استهلاك VRAM مضاعف.

متى تجني الاستضافة الذاتية ثمارها

تقريبًا، بناءً على تسعير DeepSeek V4 API:

  • V4-Flash عند 200 مليار إدخال/شهر + 20 مليار إخراج: ~33.6k$ API مستضاف مقابل 20k$ خوادم ذاتية (توفير ~40%).
  • V4-Pro عند 500 مليار إدخال + 50 مليار إخراج: ~1.04M$ API مستضاف مقابل 35k$ خوادم ذاتية (توفير >95%).

نقطة التعادل لـ V4-Flash تقريبًا عند 100 مليار توكن شهريًا. أقل من ذلك غالبًا واجهة API المستضافة أرخص وأسهل.

الأسئلة الشائعة

هل يمكن تشغيل V4-Flash على A100 واحد؟

نعم، مع تكميم قوي وسياق أقصر، لكن الأداء أبطأ (5–15 توكن/ثانية). H100 هو الخيار المثالي.

هل يدعم V4 الضبط الدقيق باستخدام LoRA؟

نعم، استخدم نقاط الفحص الأساسية وخط أنابيب TRL أو Axolotl.

هل الخادم المحلي متوافق مع OpenAI؟

نعم، كل من vLLM وSGLang يوفران /v1/chat/completions و/v1/completions بنفس شكل طلب OpenAI. يمكنك استخدام دليل API المستضاف مباشرة مع الخادم المحلي.

كيف أفعل وضع التفكير محليًا؟

مرر thinking_mode: "thinking" أو "thinking_max" في نص الطلب. العلامة تنتقل تلقائيًا إلى النموذج.

هل يمكنني البث من خادم V4 محلي؟

نعم، استخدم stream: true مثل OpenAI أو DeepSeek API المستضافة.

أرخص طريقة للتجربة قبل شراء الأجهزة؟

استأجر H100 على RunPod أو Lambda لساعات، جرّب V4-Flash INT4، وقيس الأداء. اختبار بقيمة 10–30$ يوفّر أسبوع تخطيط.

Top comments (0)