DEV Community

Cover image for DeepSeek-OCR: إنجاز رائد في OCR السياقي لتدفقات عمل الذكاء الاصطناعي وواجهات برمجة التطبيقات
Yusuf Khalidd
Yusuf Khalidd

Posted on • Originally published at apidog.com

DeepSeek-OCR: إنجاز رائد في OCR السياقي لتدفقات عمل الذكاء الاصطناعي وواجهات برمجة التطبيقات

يواجه المطورون ومهندسو الذكاء الاصطناعي تحديًا متكررًا: كيف نحول الصور والمستندات إلى سياق نصي قابل للاستهلاك بكفاءة داخل نماذج اللغات الكبيرة (LLMs)؟ يقدم DeepSeek-OCR من DeepSeek-AI إجابة عملية عبر مفهوم "الضغط البصري للسياقات": ضغط المعلومات المرئية المعقدة إلى رموز نصية موجزة وغنية بالسياق يمكن تمريرها إلى نماذج LLM.

جرّب Apidog اليوم

صدر DeepSeek-OCR في أكتوبر 2025، ويستهدف فرق أتمتة المستندات، وتحويل الصور إلى نصوص، وتحليل البيانات المرئية. بدلاً من الاكتفاء باستخراج نص خام، يركز النموذج على إنتاج تمثيل مناسب لتطبيقات LLM مع تقليل التكلفة الحسابية ودعم أعباء العمل واسعة النطاق أو شبه الفورية.

ما هو الضغط البصري للسياقات؟

الضغط البصري للسياقات هو تحويل الصورة إلى رموز نصية مضغوطة تحمل معلومات عن النص، التخطيط، والعلاقات المكانية داخل المستند. الفكرة ليست مجرد OCR تقليدي، بل تجهيز الصورة كـ "سياق" يمكن لنموذج لغوي استخدامه مباشرة.

عمليًا، هذا يعني أن DeepSeek-OCR يمكن أن يساعدك في:

  • استخراج نص مع الحفاظ على البنية مثل العناوين، الفقرات، الجداول، والقوائم.
  • اختيار مستوى الدقة المناسب حسب حالة الاستخدام.
  • استخدام معلومات الموقع داخل الصورة عبر آليات Grounding.
  • تمرير مخرجات أكثر تنظيمًا إلى LLM بدلاً من نص غير مرتب.

أدوات OCR التقليدية مثل Tesseract قد تكون كافية للصور البسيطة، لكنها قد تواجه صعوبة مع التخطيطات المعقدة، المسح الضوئي المشوه، الملاحظات المكتوبة بخط اليد، أو المستندات متعددة اللغات. DeepSeek-OCR يستخدم بنى عصبية عميقة لمعالجة هذه الحالات بدرجة أعلى من الوعي بالسياق.

كيف يعمل DeepSeek-OCR؟

يعتمد DeepSeek-OCR على مشفر رؤية موجه للاستخدام مع LLM. يقوم المشفر بضغط البيانات المرئية إلى عدد صغير من الرموز مع الحفاظ على أكبر قدر ممكن من المعلومات المهمة.

سير العمل العام:

  1. تحليل الصورة

    يتم ترميز الصورة بدقتها الأصلية أو وفق نمط دقة محدد، مع تحديد النص، التخطيط، والجداول أو الأشكال.

  2. توليد الرموز

    تتحول الميزات المرئية إلى تمثيلات مضغوطة يمكن استخدامها لاحقًا مع LLM.

  3. اختيار دقة ديناميكية

    يمكن استخدام أوضاع مختلفة حسب حجم المستند وتعقيده. وضع "Gundam" يجمع أجزاء متعددة من الصورة للتعامل مع المستندات الكثيفة أو عالية الدقة.

  4. Grounding Tags

    يستخدم النموذج مراجع خاصة مثل:

   <|ref|>xxxx<|/ref|>
Enter fullscreen mode Exit fullscreen mode

لتحديد عناصر أو مناطق داخل الصورة، وهو مفيد في واجهات المستندات التفاعلية أو أنظمة السؤال والجواب المرئية.

أوضاع الدقة والرموز

يمكنك اختيار الوضع حسب التوازن المطلوب بين السرعة، التكلفة، والتفاصيل:

الوضع الدقة عدد الرموز
Tiny 512×512 64
Small 640×640 100
Base 1024×1024 256
Large 1280×1280 400

استخدم قاعدة عملية بسيطة:

  • استخدم Tiny / Small للمعاينات السريعة أو التصنيف الأولي.
  • استخدم Base لمعظم مستندات الإنتاج.
  • استخدم Large عندما تكون التفاصيل الدقيقة مهمة، مثل الجداول الكثيفة أو المستندات عالية الدقة.

ميزات DeepSeek-OCR المهمة للمطورين

DeepSeek-OCR مناسب بشكل خاص للتطبيقات التي تمرر المخرجات إلى LLM أو API لاحقًا.

أهم الميزات:

  • مرونة الدقة الأصلية: اختيار مستوى التفاصيل بناءً على حالة الاستخدام.
  • وضع Gundam الديناميكي: معالجة مستندات عالية الدقة عبر تجميع أجزاء متعددة.
  • مخرجات Markdown: تحويل المستندات إلى Markdown منظم مع الحفاظ على الجداول والقوائم والتسلسل الهرمي.
  • تحليل الأشكال: استخراج البيانات أو الأوصاف من الرسوم البيانية.
  • تسمية الصور العامة: إنشاء أوصاف سياقية للصور.
  • الإشارة إلى الموقع: ربط الاستعلامات بعناصر محددة داخل الصورة.
  • استدلال سريع: يصل إلى 2500 رمز/ثانية على GPU من نوع A100-40G، مع توافق مع vLLM و Transformers.
  • نشر خفيف الوزن: تبعيات أقل لتسهيل التكامل والنشر.

Image

حالات استخدام عملية

يمكنك دمج DeepSeek-OCR في تطبيقات مثل:

  • معالجة فواتير أو عقود أو نماذج قانونية تلقائيًا.
  • بناء نظام سؤال وجواب على المستندات المرئية.
  • تحسين أدوات الوصول عبر أوصاف صور غنية بالسياق.
  • إنشاء pipeline لاستخراج النصوص من أرشيفات ممسوحة ضوئيًا.
  • تحويل مستندات PDF أو صور إلى Markdown قبل إرسالها إلى LLM.

مثال pipeline مبسط:

Image / PDF
   ↓
DeepSeek-OCR
   ↓
Markdown أو رموز مضغوطة
   ↓
LLM
   ↓
إجابة، تلخيص، تحقق، أو استخراج بيانات
Enter fullscreen mode Exit fullscreen mode

تحت الغطاء: بنية DeepSeek-OCR

تتكون البنية من مراحل واضحة:

  • المعالجة المسبقة للصور: تغيير الحجم والتطبيع.
  • Vision Transformer Backbone: تقسيم الصورة إلى أجزاء وتحويلها إلى تضمينات.
  • ترميز مضغوط: استخدام الانتباه متعدد الرؤوس وشبكات التغذية الأمامية لتجميع السياق البصري في رموز موجزة.
  • تكامل LLM: تمرير الرموز المرئية قبل أو مع المطالبات النصية لتقليل طول السياق واستهلاك الذاكرة.
  • Grounding مكاني: ربط الرموز الخاصة بإحداثيات أو مناطق داخل الصورة.
  • تدريب محسّن: ضبط على مجموعات بيانات صور-نص مقترنة لتحقيق توازن بين الضغط والدقة.

Image

في الوضع الديناميكي، يجمع DeepSeek-OCR التضمينات من تمريرات متعددة، ما يساعد على الحفاظ على الاتساق عند التعامل مع مستندات بأحجام وتخطيطات مختلفة.

Image

دليل التثبيت: البدء مع DeepSeek-OCR

ابدأ ببيئة Python حديثة مع دعم CUDA. الخطوات التالية مبنية على تعليمات المشروع.

1. إنشاء بيئة Conda

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
Enter fullscreen mode Exit fullscreen mode

2. استنساخ المستودع

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
Enter fullscreen mode Exit fullscreen mode

3. تثبيت PyTorch والتبعيات

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
Enter fullscreen mode Exit fullscreen mode

4. تثبيت المتطلبات

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
Enter fullscreen mode Exit fullscreen mode

5. تثبيت vLLM

قم بتنزيل عجلة vLLM-0.8.5 من الإصدار الرسمي، ثم ثبّتها:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
Enter fullscreen mode Exit fullscreen mode

ملاحظة: توصي الوثائق بتجاهل بعض الأخطاء المتعلقة بـ vLLM و Transformers أثناء الإعداد، إذا كانت مذكورة ضمن تعليمات المشروع.

مثال سير عمل API بسيط

إذا كنت تبني خدمة OCR داخل تطبيقك، يمكنك تصميم endpoint بهذا الشكل:

POST /ocr
Content-Type: multipart/form-data

file=<image_or_document>
mode=base
output=markdown
Enter fullscreen mode Exit fullscreen mode

واستجابة متوقعة مثل:

{
  "mode": "base",
  "output_format": "markdown",
  "content": "# عنوان المستند\n\n| العمود 1 | العمود 2 |\n|---|---|\n| قيمة | قيمة |",
  "metadata": {
    "pages": 1,
    "tokens": 256
  }
}
Enter fullscreen mode Exit fullscreen mode

هذا النمط يجعل التكامل مع LLM أسهل، لأنك ترسل Markdown منظمًا بدلاً من نص خام غير مرتب.

مثال تمرير المخرجات إلى LLM:

لديك محتوى مستند مستخرج بصيغة Markdown.
استخرج اسم العميل، التاريخ، والإجمالي.

المستند:
{{ocr_markdown}}
Enter fullscreen mode Exit fullscreen mode

الأداء والمعايير

تم تصميم DeepSeek-OCR للإنتاجية العالية مع الحفاظ على الدقة:

  • السرعة: حتى 2500 رمز/ثانية على GPU من نوع A100-40G.
  • المعايير: أداء قوي على Fox و OmniDocBench في دقة OCR، الاحتفاظ بالتخطيط، وتحليل الأشكال.
  • الضغط: تقليل الرموز بنسبة 50% مع الحفاظ على دقة استخراج تتجاوز 95%.
  • تغيير حجم الدقة: الأوضاع الأعلى توفر تفاصيل أكثر مقابل رموز أكثر. وضع base غالبًا مناسب لمعظم سيناريوهات الإنتاج.

Image

مقارنة DeepSeek-OCR بحلول OCR الأخرى

الميزة DeepSeek-OCR PaddleOCR GOT-OCR2.0 MinerU Tesseract
تكامل LLM نعم لا جزئي لا لا
مخرجات سياقية نعم لا جزئي لا لا
دقة ديناميكية نعم لا لا لا لا
دعم Grounding نعم لا لا لا لا
ضغط الرموز عالٍ متوسط متوسط منخفض منخفض
مخرجات Markdown نعم لا لا لا لا

يتميز DeepSeek-OCR عندما تكون المخرجات موجهة إلى LLM أو API، خصوصًا في الحالات التي تحتاج إلى الحفاظ على التخطيط، الجداول، والعلاقات المكانية.

Image

لماذا يهم Apidog لتكامل DeepSeek-OCR API؟

عند تحويل DeepSeek-OCR إلى خدمة API، ستحتاج إلى اختبار نقاط النهاية، التحقق من الحمولات، ومراقبة الاستجابات. هنا يمكن استخدام Apidog كأداة عملية ضمن دورة التطوير.

يساعدك Apidog في:

  • اختبار API سريع: إرسال صور أو مستندات إلى endpoint والتحقق من استجابة OCR.
  • المحاكاة: بناء mock API قبل جاهزية خدمة OCR النهائية.
  • الأتمتة: إعداد اختبارات متكررة للمدخلات والاستجابات.
  • مراقبة الأداء: تتبع زمن الاستجابة والأخطاء.
  • التعاون: مشاركة مجموعات API مع الفريق لتسريع التصحيح والمراجعة.

مثال حالات اختبار مفيدة:

1. صورة واضحة → يجب أن تعيد Markdown منظمًا.
2. صورة منخفضة الدقة → يجب أن تعيد نتيجة مقبولة أو خطأ واضحًا.
3. ملف كبير → يجب أن يستخدم الوضع المناسب أو يعيد رسالة حد الحجم.
4. جدول داخل صورة → يجب الحفاظ على البنية الجدولية قدر الإمكان.
Enter fullscreen mode Exit fullscreen mode

الخاتمة

DeepSeek-OCR يقدم طريقة عملية لربط الصور والمستندات بسير عمل LLM عبر ضغط بصري يحافظ على السياق. إذا كنت تبني نظام OCR حديثًا، فابدأ بوضع base، اختبر المخرجات بصيغة Markdown، ثم اضبط الدقة حسب نوع المستند والتكلفة المطلوبة.

وعند تحويل النموذج إلى API إنتاجية، استخدم أدوات مثل Apidog لاختبار endpoints، محاكاة الاستجابات، ومراقبة الأداء قبل الإطلاق.

Top comments (0)