DEV Community

Cover image for DeepSeek-OCR: Yapay Zeka ve API İş Akışları için Çığır Açan Bağlamsal OCR
Tobias Hoffmann
Tobias Hoffmann

Posted on • Originally published at apidog.com

DeepSeek-OCR: Yapay Zeka ve API İş Akışları için Çığır Açan Bağlamsal OCR

Geliştiriciler ve yapay zeka mühendisleri, büyük dil modellerinde (LLM'ler) görsel verileri (görseller ve belgeler gibi) metin tabanlı işlemeyle birleştirme zorluğuyla sık sık karşılaşır. DeepSeek-AI, bu problemi “bağlamlar optik sıkıştırması” için tasarlanmış DeepSeek-OCR ile ele alır: karmaşık görsel bilgileri, LLM'lerin işleyebileceği kısa ve bağlam açısından zengin metin belirteçlerine dönüştürür.

Apidog'u bugün deneyin

Ekim 2025'te yayınlanan DeepSeek-OCR; belge otomasyonu, görüntüden metne dönüştürme ve görsel veri analizi üzerinde çalışan ekipler için LLM odaklı bir OCR yaklaşımı sunar. Amaç; doğruluğu korurken hesaplama yükünü azaltmak, düzen bilgisini kaybetmemek ve büyük ölçekli iş yüklerinde daha verimli çıkarım sağlamaktır.

Bağlamlar Optik Sıkıştırması Nedir?

Bağlamlar optik sıkıştırması, görüntüleri LLM tüketimi için kompakt ve bilgi yoğun metin belirteçlerine dönüştürme sürecidir.

Klasik OCR araçları çoğunlukla “görüntüden düz metin çıkarma” üzerine odaklanır. DeepSeek-OCR ise yalnızca metni değil, şu bilgileri de korumaya çalışır:

  • Belge düzeni
  • Başlık/gövde ilişkisi
  • Tablo yapıları
  • Uzamsal referanslar
  • Görsel öğelerin bağlamı

Bu yaklaşım, OCR çıktısını doğrudan LLM iş akışlarında kullanmayı kolaylaştırır.

Temel avantajlar:

  • Zengin bağlam: Belge yapısını, başlıkları, tabloları ve uzamsal ilişkileri korur.
  • Esnek çözünürlük modları: Hızlı önizleme için küçük modlardan, daha detaylı analiz için büyük modlara kadar farklı seçenekler sunar.
  • Temellendirme yetenekleri: Görseldeki öğeler için konum referansı sağlar.
  • LLM uyumluluğu: Çıktıyı LLM'lerin işleyebileceği sıkıştırılmış belirteçler halinde üretir.

Tesseract gibi geleneksel OCR araçları karmaşık düzenlerde, bozuk taramalarda veya çok dilli belgelerde zorlanabilir. DeepSeek-OCR ise derin sinir mimarilerinden yararlanarak daha bağlamlı bir çıktı üretmeyi hedefler.

DeepSeek-OCR Nasıl Çalışır?

DeepSeek-OCR, görsel verileri minimal ama bilgilendirici bir belirteç setine sıkıştıran LLM merkezli bir görsel kodlayıcı kullanır.

Tipik iş akışı şu şekildedir:

  1. Görüntü analizi

    • Giriş görüntüsü yerel çözünürlüğünde işlenir.
    • Metin, düzen, şekiller ve görsel bölgeler ayrıştırılır.
  2. Belirteç üretimi

    • Görsel özellikler sıkıştırılmış gösterimlere dönüştürülür.
    • Başlıklar, gövde metni, tablolar ve şekiller gibi bölümler ayrıştırılır.
  3. Dinamik çözünürlük

    • “Gundam” modu, yoğun veya çok büyük belgelerde birden fazla görüntü segmentini birlikte işler.
  4. Temellendirme etiketleri

    • Görseldeki belirli öğeleri işaretlemek için özel referanslar kullanılabilir:
<|ref|>xxxx<|/ref|>
Enter fullscreen mode Exit fullscreen mode

Bu yapı; AR, etkileşimli belge arayüzleri veya belirli belge bölgelerinden veri çıkarma senaryolarında kullanılabilir.

Belirteç Modları

DeepSeek-OCR farklı çözünürlük/belirteç modları sunar:

Mod Çözünürlük Belirteç
Tiny 512×512 px 64
Small 640×640 px 100
Base 1024×1024 px 256
Large 1280×1280 px 400

Pratik seçim önerisi:

  • Tiny / Small: Hızlı önizleme, düşük maliyetli denemeler
  • Base: Çoğu üretim senaryosu için dengeli seçenek
  • Large: Daha fazla detay gerektiren belgeler
  • Gundam modu: Çok büyük veya yoğun belgeler

Geliştiriciler İçin Öne Çıkan Özellikler

DeepSeek-OCR, modern yapay zeka ve API tabanlı uygulamalar için şu özellikleri sağlar:

  • Yerel çözünürlük esnekliği: Kullanım senaryonuza göre uygun modu seçebilirsiniz.
  • Dinamik “Gundam” modu: Ultra yüksek çözünürlüklü belgeleri segmentler halinde işler.
  • Markdown çıktısı: Belgeleri tablolar, listeler ve hiyerarşi korunacak şekilde yapılandırılmış markdown'a dönüştürür.
  • Şekil ayrıştırma: Grafikler ve çizelgelerden veri ve açıklama çıkarabilir.
  • Genel görüntü açıklaması: Görseller için bağlam farkındalığı olan açıklamalar oluşturabilir.
  • Konum referanslama: Belirli öğeler hakkında veri sorgulama veya çıkarma yapılabilir.
  • Hızlı çıkarım: Bir A100-40G GPU üzerinde vLLM ve Transformers uyumlu şekilde 2500 belirteç/saniye hızına ulaşabilir.
  • Hafif dağıtım: Güvenli ve ölçeklenebilir entegrasyonlar için minimum bağımlılık hedefler.

Görsel

Örnek Kullanım Senaryoları

DeepSeek-OCR özellikle şu iş akışlarında değerlendirilebilir:

  • Finansal veya hukuki belgelerde otomatik belge işleme
  • Görsel soru-cevap sistemleri
  • Erişilebilirlik araçları için zengin görüntü açıklamaları
  • Dijital arşivleme için toplu OCR ardışık düzenleri
  • API tabanlı belge işleme servisleri
  • Markdown çıktısı gerektiren belge dönüştürme sistemleri

Kaputun Altında: DeepSeek-OCR Mimarisi

DeepSeek-OCR mimarisi, verimli ve bağlam farkındalığı olan OCR için tasarlanmıştır.

Ana bileşenler:

  • Görüntü ön işleme

    • Giriş görüntüleri yeniden boyutlandırılır ve normalleştirilir.
  • Görsel Transformer omurgası

    • Görüntüler yamalara bölünür.
    • Her yama gömülmelere kodlanır.
  • Sıkıştırılmış belirteçleştirme

    • Çok başlı dikkat ve ileri beslemeli ağlar, görsel bağlamı kısa belirteçlere dönüştürür.
  • LLM entegrasyonu

    • Görsel belirteçler metin istemlerinin başına eklenebilir.
    • Böylece bağlam uzunluğu ve bellek kullanımı azaltılabilir.
  • Uzamsal temellendirme

    • Özel belirteçler, sorguların görseldeki belirli koordinatlara veya bölgelere bağlanmasını sağlar.
  • Optimize edilmiş eğitim

    • Eşleştirilmiş görüntü-metin veri kümeleri üzerinde ince ayar yapılır.
    • Amaç, sıkıştırma ve doğruluk arasında denge kurmaktır.

Görsel

Dinamik mod, birden çok geçişten gelen gömülmeleri birleştirerek farklı boyutlardaki belgelerde tutarlı çıktı üretmeye yardımcı olur.

Görsel

Kurulum Rehberi: DeepSeek-OCR'a Başlamak

DeepSeek-OCR'ı CUDA destekli modern bir Python ortamında çalıştırabilirsiniz.

Aşağıdaki akış, yerel geliştirme ortamı hazırlamak için pratik bir başlangıç sağlar.

1. Conda ortamını oluşturun

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
Enter fullscreen mode Exit fullscreen mode

2. Depoyu klonlayın

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
Enter fullscreen mode Exit fullscreen mode

3. Gereksinimleri yükleyin

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
Enter fullscreen mode Exit fullscreen mode

4. PyTorch ve bağımlılıklarını yükleyin

CUDA 11.8 için:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
Enter fullscreen mode Exit fullscreen mode

5. vLLM wheel dosyasını yükleyin

Önce vLLM-0.8.5 wheel dosyasını resmi sürümden indirin. Ardından:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
Enter fullscreen mode Exit fullscreen mode

Not: Belgelerde belirtildiği gibi vLLM ve Transformers ile ilgili bazı uyarılar göz ardı edilebilir.

Basit Bir OCR İş Akışı Nasıl Tasarlanır?

DeepSeek-OCR'ı üretime taşırken yalnızca modeli çalıştırmak yeterli değildir. Tipik bir API tabanlı iş akışı şu adımlardan oluşur:

  1. Kullanıcı belge veya görsel yükler.
  2. API dosyayı alır ve geçici depolamaya yazar.
  3. DeepSeek-OCR uygun çözünürlük moduyla çalıştırılır.
  4. Çıktı markdown, JSON veya metin formatında döndürülür.
  5. Sonuç LLM, arama indeksi veya belge yönetim sistemine aktarılır.

Örnek API taslağı:

POST /ocr
Content-Type: multipart/form-data
Enter fullscreen mode Exit fullscreen mode

Örnek yanıt yapısı:

{
  "mode": "base",
  "format": "markdown",
  "content": "# Fatura\n\n| Kalem | Tutar |\n| --- | --- |\n| Hizmet | 1000 |",
  "references": []
}
Enter fullscreen mode Exit fullscreen mode

Bu yapı, OCR çıktısını sonraki LLM veya veri işleme adımlarına daha kolay bağlamanızı sağlar.

Performans ve Kıyaslama

DeepSeek-OCR yüksek verimlilik ve doğruluk için tasarlanmıştır.

Öne çıkan metrikler:

  • Hız: A100-40G GPU üzerinde 2500 belirteç/saniyeye kadar
  • Kıyaslamalar:
    • Fox ve OmniDocBench üzerinde OCR hassasiyeti, düzen koruma ve şekil ayrıştırmada güçlü performans
  • Sıkıştırma:
    • %95'ten fazla çıkarma doğruluğunu korurken belirteçleri %50 oranında azaltma
  • Çözünürlük ölçeklendirme:
    • Daha yüksek modlar daha fazla detay sunar ancak daha fazla belirteç tüketir.
    • “Base” mod çoğu üretim senaryosu için dengeli bir seçenektir.

Görsel

DeepSeek-OCR'ı Diğer OCR Çözümleriyle Karşılaştırma

Özellik DeepSeek-OCR PaddleOCR GOT-OCR2.0 MinerU Tesseract
LLM Entegrasyonu Evet Hayır Kısmi Hayır Hayır
Bağlamsal Çıktı Evet Hayır Kısmi Hayır Hayır
Dinamik Çözünürlük Evet Hayır Hayır Hayır Hayır
Temellendirme Desteği Evet Hayır Hayır Hayır Hayır
Belirteç Sıkıştırma Yüksek Orta Orta Düşük Düşük
Markdown Çıktı Evet Hayır Hayır Hayır Hayır

DeepSeek-OCR; LLM uyumluluğu, bağlam koruma ve görsel belirteç sıkıştırma özellikleriyle modern yapay zeka ve API tabanlı uygulamalarda öne çıkar.

Görsel

DeepSeek-OCR API Entegrasyonu İçin Apidog Neden Önemli?

DeepSeek-OCR'ı gerçek dünya projelerine entegre ederken şu problemleri çözmeniz gerekir:

  • OCR uç noktalarını test etmek
  • Dosya yükleme akışlarını doğrulamak
  • Yanıt şemalarını standardize etmek
  • Hata durumlarını simüle etmek
  • Performansı izlemek
  • Ekip içinde API koleksiyonlarını paylaşmak

Apidog bu noktada birleşik bir API geliştirme ve test platformu sağlar.

Pratik olarak şu işlerde kullanılabilir:

  • Hızlı API testi: OCR uç noktalarını, request payload'larını ve response çıktılarını doğrulayın.
  • Mock veri ve otomasyon: Üretim bağımlılıkları olmadan OCR API davranışını simüle edin.
  • Performans izleme: Yanıt sürelerini ve hata oranlarını takip edin.
  • Ekip işbirliği: API koleksiyonlarını paylaşarak hata ayıklama ve iterasyon sürecini hızlandırın.

Örneğin DeepSeek-OCR için şu uç noktaları Apidog üzerinde tanımlayabilirsiniz:

POST /ocr
GET /ocr/{jobId}
GET /ocr/{jobId}/result
Enter fullscreen mode Exit fullscreen mode

Örnek hata yanıtı:

{
  "error": "UNSUPPORTED_FILE_TYPE",
  "message": "Yalnızca desteklenen görüntü veya belge formatları yüklenebilir."
}
Enter fullscreen mode Exit fullscreen mode

Bu yaklaşım, OCR servisinizin yalnızca model seviyesinde değil, API sözleşmesi seviyesinde de test edilebilir olmasını sağlar.

Sonuç

DeepSeek-OCR, görsel veriler ile LLM destekli metin iş akışları arasındaki boşluğu azaltan güçlü bir OCR yaklaşımı sunar. Bağlam koruma, markdown çıktısı, dinamik çözünürlük ve temellendirme desteği sayesinde belge işleme, görsel soru-cevap ve API tabanlı OCR sistemleri için uygulanabilir bir seçenek haline gelir.

DeepSeek-OCR'ı üretime taşırken modeli çalıştırmanın yanında API tasarımı, test, mock veri, hata senaryoları ve performans izleme süreçlerini de planlamak gerekir. Apidog gibi araçlar, bu entegrasyon sürecini daha düzenli ve sürdürülebilir hale getirir.

Top comments (0)