Yusuf Khalidd

Posted on Jun 23 • Originally published at apidog.com

DeepSeek-OCR: إنجاز رائد في OCR السياقي لتدفقات عمل الذكاء الاصطناعي وواجهات برمجة التطبيقات

يواجه المطورون ومهندسو الذكاء الاصطناعي تحديًا متكررًا: كيف نحول الصور والمستندات إلى سياق نصي قابل للاستهلاك بكفاءة داخل نماذج اللغات الكبيرة (LLMs)؟ يقدم DeepSeek-OCR من DeepSeek-AI إجابة عملية عبر مفهوم "الضغط البصري للسياقات": ضغط المعلومات المرئية المعقدة إلى رموز نصية موجزة وغنية بالسياق يمكن تمريرها إلى نماذج LLM.

جرّب Apidog اليوم

صدر DeepSeek-OCR في أكتوبر 2025، ويستهدف فرق أتمتة المستندات، وتحويل الصور إلى نصوص، وتحليل البيانات المرئية. بدلاً من الاكتفاء باستخراج نص خام، يركز النموذج على إنتاج تمثيل مناسب لتطبيقات LLM مع تقليل التكلفة الحسابية ودعم أعباء العمل واسعة النطاق أو شبه الفورية.

ما هو الضغط البصري للسياقات؟

الضغط البصري للسياقات هو تحويل الصورة إلى رموز نصية مضغوطة تحمل معلومات عن النص، التخطيط، والعلاقات المكانية داخل المستند. الفكرة ليست مجرد OCR تقليدي، بل تجهيز الصورة كـ "سياق" يمكن لنموذج لغوي استخدامه مباشرة.

عمليًا، هذا يعني أن DeepSeek-OCR يمكن أن يساعدك في:

استخراج نص مع الحفاظ على البنية مثل العناوين، الفقرات، الجداول، والقوائم.
اختيار مستوى الدقة المناسب حسب حالة الاستخدام.
استخدام معلومات الموقع داخل الصورة عبر آليات Grounding.
تمرير مخرجات أكثر تنظيمًا إلى LLM بدلاً من نص غير مرتب.

أدوات OCR التقليدية مثل Tesseract قد تكون كافية للصور البسيطة، لكنها قد تواجه صعوبة مع التخطيطات المعقدة، المسح الضوئي المشوه، الملاحظات المكتوبة بخط اليد، أو المستندات متعددة اللغات. DeepSeek-OCR يستخدم بنى عصبية عميقة لمعالجة هذه الحالات بدرجة أعلى من الوعي بالسياق.

كيف يعمل DeepSeek-OCR؟

يعتمد DeepSeek-OCR على مشفر رؤية موجه للاستخدام مع LLM. يقوم المشفر بضغط البيانات المرئية إلى عدد صغير من الرموز مع الحفاظ على أكبر قدر ممكن من المعلومات المهمة.

سير العمل العام:

تحليل الصورة

يتم ترميز الصورة بدقتها الأصلية أو وفق نمط دقة محدد، مع تحديد النص، التخطيط، والجداول أو الأشكال.
توليد الرموز

تتحول الميزات المرئية إلى تمثيلات مضغوطة يمكن استخدامها لاحقًا مع LLM.
اختيار دقة ديناميكية

يمكن استخدام أوضاع مختلفة حسب حجم المستند وتعقيده. وضع "Gundam" يجمع أجزاء متعددة من الصورة للتعامل مع المستندات الكثيفة أو عالية الدقة.
Grounding Tags

يستخدم النموذج مراجع خاصة مثل:

   <|ref|>xxxx<|/ref|>

لتحديد عناصر أو مناطق داخل الصورة، وهو مفيد في واجهات المستندات التفاعلية أو أنظمة السؤال والجواب المرئية.

أوضاع الدقة والرموز

يمكنك اختيار الوضع حسب التوازن المطلوب بين السرعة، التكلفة، والتفاصيل:

الوضع	الدقة	عدد الرموز
Tiny	512×512	64
Small	640×640	100
Base	1024×1024	256
Large	1280×1280	400

استخدم قاعدة عملية بسيطة:

استخدم Tiny / Small للمعاينات السريعة أو التصنيف الأولي.
استخدم Base لمعظم مستندات الإنتاج.
استخدم Large عندما تكون التفاصيل الدقيقة مهمة، مثل الجداول الكثيفة أو المستندات عالية الدقة.

ميزات DeepSeek-OCR المهمة للمطورين

DeepSeek-OCR مناسب بشكل خاص للتطبيقات التي تمرر المخرجات إلى LLM أو API لاحقًا.

أهم الميزات:

مرونة الدقة الأصلية: اختيار مستوى التفاصيل بناءً على حالة الاستخدام.
وضع Gundam الديناميكي: معالجة مستندات عالية الدقة عبر تجميع أجزاء متعددة.
مخرجات Markdown: تحويل المستندات إلى Markdown منظم مع الحفاظ على الجداول والقوائم والتسلسل الهرمي.
تحليل الأشكال: استخراج البيانات أو الأوصاف من الرسوم البيانية.
تسمية الصور العامة: إنشاء أوصاف سياقية للصور.
الإشارة إلى الموقع: ربط الاستعلامات بعناصر محددة داخل الصورة.
استدلال سريع: يصل إلى 2500 رمز/ثانية على GPU من نوع A100-40G، مع توافق مع vLLM و Transformers.
نشر خفيف الوزن: تبعيات أقل لتسهيل التكامل والنشر.

حالات استخدام عملية

يمكنك دمج DeepSeek-OCR في تطبيقات مثل:

معالجة فواتير أو عقود أو نماذج قانونية تلقائيًا.
بناء نظام سؤال وجواب على المستندات المرئية.
تحسين أدوات الوصول عبر أوصاف صور غنية بالسياق.
إنشاء pipeline لاستخراج النصوص من أرشيفات ممسوحة ضوئيًا.
تحويل مستندات PDF أو صور إلى Markdown قبل إرسالها إلى LLM.

مثال pipeline مبسط:

Image / PDF
   ↓
DeepSeek-OCR
   ↓
Markdown أو رموز مضغوطة
   ↓
LLM
   ↓
إجابة، تلخيص، تحقق، أو استخراج بيانات

تحت الغطاء: بنية DeepSeek-OCR

تتكون البنية من مراحل واضحة:

المعالجة المسبقة للصور: تغيير الحجم والتطبيع.
Vision Transformer Backbone: تقسيم الصورة إلى أجزاء وتحويلها إلى تضمينات.
ترميز مضغوط: استخدام الانتباه متعدد الرؤوس وشبكات التغذية الأمامية لتجميع السياق البصري في رموز موجزة.
تكامل LLM: تمرير الرموز المرئية قبل أو مع المطالبات النصية لتقليل طول السياق واستهلاك الذاكرة.
Grounding مكاني: ربط الرموز الخاصة بإحداثيات أو مناطق داخل الصورة.
تدريب محسّن: ضبط على مجموعات بيانات صور-نص مقترنة لتحقيق توازن بين الضغط والدقة.

في الوضع الديناميكي، يجمع DeepSeek-OCR التضمينات من تمريرات متعددة، ما يساعد على الحفاظ على الاتساق عند التعامل مع مستندات بأحجام وتخطيطات مختلفة.

دليل التثبيت: البدء مع DeepSeek-OCR

ابدأ ببيئة Python حديثة مع دعم CUDA. الخطوات التالية مبنية على تعليمات المشروع.

1. إنشاء بيئة Conda

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

2. استنساخ المستودع

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

3. تثبيت PyTorch والتبعيات

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

4. تثبيت المتطلبات

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

5. تثبيت vLLM

قم بتنزيل عجلة vLLM-0.8.5 من الإصدار الرسمي، ثم ثبّتها:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

ملاحظة: توصي الوثائق بتجاهل بعض الأخطاء المتعلقة بـ vLLM و Transformers أثناء الإعداد، إذا كانت مذكورة ضمن تعليمات المشروع.

مثال سير عمل API بسيط

إذا كنت تبني خدمة OCR داخل تطبيقك، يمكنك تصميم endpoint بهذا الشكل:

POST /ocr
Content-Type: multipart/form-data

file=<image_or_document>
mode=base
output=markdown

واستجابة متوقعة مثل:

{
  "mode": "base",
  "output_format": "markdown",
  "content": "# عنوان المستند\n\n| العمود 1 | العمود 2 |\n|---|---|\n| قيمة | قيمة |",
  "metadata": {
    "pages": 1,
    "tokens": 256
  }
}

هذا النمط يجعل التكامل مع LLM أسهل، لأنك ترسل Markdown منظمًا بدلاً من نص خام غير مرتب.

مثال تمرير المخرجات إلى LLM:

لديك محتوى مستند مستخرج بصيغة Markdown.
استخرج اسم العميل، التاريخ، والإجمالي.

المستند:
{{ocr_markdown}}

الأداء والمعايير

تم تصميم DeepSeek-OCR للإنتاجية العالية مع الحفاظ على الدقة:

السرعة: حتى 2500 رمز/ثانية على GPU من نوع A100-40G.
المعايير: أداء قوي على Fox و OmniDocBench في دقة OCR، الاحتفاظ بالتخطيط، وتحليل الأشكال.
الضغط: تقليل الرموز بنسبة 50% مع الحفاظ على دقة استخراج تتجاوز 95%.
تغيير حجم الدقة: الأوضاع الأعلى توفر تفاصيل أكثر مقابل رموز أكثر. وضع base غالبًا مناسب لمعظم سيناريوهات الإنتاج.

مقارنة DeepSeek-OCR بحلول OCR الأخرى

الميزة	DeepSeek-OCR	PaddleOCR	GOT-OCR2.0	MinerU	Tesseract
تكامل LLM	نعم	لا	جزئي	لا	لا
مخرجات سياقية	نعم	لا	جزئي	لا	لا
دقة ديناميكية	نعم	لا	لا	لا	لا
دعم Grounding	نعم	لا	لا	لا	لا
ضغط الرموز	عالٍ	متوسط	متوسط	منخفض	منخفض
مخرجات Markdown	نعم	لا	لا	لا	لا

يتميز DeepSeek-OCR عندما تكون المخرجات موجهة إلى LLM أو API، خصوصًا في الحالات التي تحتاج إلى الحفاظ على التخطيط، الجداول، والعلاقات المكانية.

لماذا يهم Apidog لتكامل DeepSeek-OCR API؟

عند تحويل DeepSeek-OCR إلى خدمة API، ستحتاج إلى اختبار نقاط النهاية، التحقق من الحمولات، ومراقبة الاستجابات. هنا يمكن استخدام Apidog كأداة عملية ضمن دورة التطوير.

يساعدك Apidog في:

اختبار API سريع: إرسال صور أو مستندات إلى endpoint والتحقق من استجابة OCR.
المحاكاة: بناء mock API قبل جاهزية خدمة OCR النهائية.
الأتمتة: إعداد اختبارات متكررة للمدخلات والاستجابات.
مراقبة الأداء: تتبع زمن الاستجابة والأخطاء.
التعاون: مشاركة مجموعات API مع الفريق لتسريع التصحيح والمراجعة.

مثال حالات اختبار مفيدة:

1. صورة واضحة → يجب أن تعيد Markdown منظمًا.
2. صورة منخفضة الدقة → يجب أن تعيد نتيجة مقبولة أو خطأ واضحًا.
3. ملف كبير → يجب أن يستخدم الوضع المناسب أو يعيد رسالة حد الحجم.
4. جدول داخل صورة → يجب الحفاظ على البنية الجدولية قدر الإمكان.

الخاتمة

DeepSeek-OCR يقدم طريقة عملية لربط الصور والمستندات بسير عمل LLM عبر ضغط بصري يحافظ على السياق. إذا كنت تبني نظام OCR حديثًا، فابدأ بوضع base، اختبر المخرجات بصيغة Markdown، ثم اضبط الدقة حسب نوع المستند والتكلفة المطلوبة.

وعند تحويل النموذج إلى API إنتاجية، استخدم أدوات مثل Apidog لاختبار endpoints، محاكاة الاستجابات، ومراقبة الأداء قبل الإطلاق.

DEV Community