Tobias Hoffmann

Posted on Jun 23 • Originally published at apidog.com

DeepSeek-OCR: Yapay Zeka ve API İş Akışları için Çığır Açan Bağlamsal OCR

Geliştiriciler ve yapay zeka mühendisleri, büyük dil modellerinde (LLM'ler) görsel verileri (görseller ve belgeler gibi) metin tabanlı işlemeyle birleştirme zorluğuyla sık sık karşılaşır. DeepSeek-AI, bu problemi “bağlamlar optik sıkıştırması” için tasarlanmış DeepSeek-OCR ile ele alır: karmaşık görsel bilgileri, LLM'lerin işleyebileceği kısa ve bağlam açısından zengin metin belirteçlerine dönüştürür.

Apidog'u bugün deneyin

Ekim 2025'te yayınlanan DeepSeek-OCR; belge otomasyonu, görüntüden metne dönüştürme ve görsel veri analizi üzerinde çalışan ekipler için LLM odaklı bir OCR yaklaşımı sunar. Amaç; doğruluğu korurken hesaplama yükünü azaltmak, düzen bilgisini kaybetmemek ve büyük ölçekli iş yüklerinde daha verimli çıkarım sağlamaktır.

Bağlamlar Optik Sıkıştırması Nedir?

Bağlamlar optik sıkıştırması, görüntüleri LLM tüketimi için kompakt ve bilgi yoğun metin belirteçlerine dönüştürme sürecidir.

Klasik OCR araçları çoğunlukla “görüntüden düz metin çıkarma” üzerine odaklanır. DeepSeek-OCR ise yalnızca metni değil, şu bilgileri de korumaya çalışır:

Belge düzeni
Başlık/gövde ilişkisi
Tablo yapıları
Uzamsal referanslar
Görsel öğelerin bağlamı

Bu yaklaşım, OCR çıktısını doğrudan LLM iş akışlarında kullanmayı kolaylaştırır.

Temel avantajlar:

Zengin bağlam: Belge yapısını, başlıkları, tabloları ve uzamsal ilişkileri korur.
Esnek çözünürlük modları: Hızlı önizleme için küçük modlardan, daha detaylı analiz için büyük modlara kadar farklı seçenekler sunar.
Temellendirme yetenekleri: Görseldeki öğeler için konum referansı sağlar.
LLM uyumluluğu: Çıktıyı LLM'lerin işleyebileceği sıkıştırılmış belirteçler halinde üretir.

Tesseract gibi geleneksel OCR araçları karmaşık düzenlerde, bozuk taramalarda veya çok dilli belgelerde zorlanabilir. DeepSeek-OCR ise derin sinir mimarilerinden yararlanarak daha bağlamlı bir çıktı üretmeyi hedefler.

DeepSeek-OCR Nasıl Çalışır?

DeepSeek-OCR, görsel verileri minimal ama bilgilendirici bir belirteç setine sıkıştıran LLM merkezli bir görsel kodlayıcı kullanır.

Tipik iş akışı şu şekildedir:

Görüntü analizi
- Giriş görüntüsü yerel çözünürlüğünde işlenir.
- Metin, düzen, şekiller ve görsel bölgeler ayrıştırılır.
Belirteç üretimi
- Görsel özellikler sıkıştırılmış gösterimlere dönüştürülür.
- Başlıklar, gövde metni, tablolar ve şekiller gibi bölümler ayrıştırılır.
Dinamik çözünürlük
- “Gundam” modu, yoğun veya çok büyük belgelerde birden fazla görüntü segmentini birlikte işler.
Temellendirme etiketleri
- Görseldeki belirli öğeleri işaretlemek için özel referanslar kullanılabilir:

<|ref|>xxxx<|/ref|>

Bu yapı; AR, etkileşimli belge arayüzleri veya belirli belge bölgelerinden veri çıkarma senaryolarında kullanılabilir.

Belirteç Modları

DeepSeek-OCR farklı çözünürlük/belirteç modları sunar:

Mod	Çözünürlük	Belirteç
Tiny	512×512 px	64
Small	640×640 px	100
Base	1024×1024 px	256
Large	1280×1280 px	400

Pratik seçim önerisi:

Tiny / Small: Hızlı önizleme, düşük maliyetli denemeler
Base: Çoğu üretim senaryosu için dengeli seçenek
Large: Daha fazla detay gerektiren belgeler
Gundam modu: Çok büyük veya yoğun belgeler

Geliştiriciler İçin Öne Çıkan Özellikler

DeepSeek-OCR, modern yapay zeka ve API tabanlı uygulamalar için şu özellikleri sağlar:

Yerel çözünürlük esnekliği: Kullanım senaryonuza göre uygun modu seçebilirsiniz.
Dinamik “Gundam” modu: Ultra yüksek çözünürlüklü belgeleri segmentler halinde işler.
Markdown çıktısı: Belgeleri tablolar, listeler ve hiyerarşi korunacak şekilde yapılandırılmış markdown'a dönüştürür.
Şekil ayrıştırma: Grafikler ve çizelgelerden veri ve açıklama çıkarabilir.
Genel görüntü açıklaması: Görseller için bağlam farkındalığı olan açıklamalar oluşturabilir.
Konum referanslama: Belirli öğeler hakkında veri sorgulama veya çıkarma yapılabilir.
Hızlı çıkarım: Bir A100-40G GPU üzerinde vLLM ve Transformers uyumlu şekilde 2500 belirteç/saniye hızına ulaşabilir.
Hafif dağıtım: Güvenli ve ölçeklenebilir entegrasyonlar için minimum bağımlılık hedefler.

Örnek Kullanım Senaryoları

DeepSeek-OCR özellikle şu iş akışlarında değerlendirilebilir:

Finansal veya hukuki belgelerde otomatik belge işleme
Görsel soru-cevap sistemleri
Erişilebilirlik araçları için zengin görüntü açıklamaları
Dijital arşivleme için toplu OCR ardışık düzenleri
API tabanlı belge işleme servisleri
Markdown çıktısı gerektiren belge dönüştürme sistemleri

Kaputun Altında: DeepSeek-OCR Mimarisi

DeepSeek-OCR mimarisi, verimli ve bağlam farkındalığı olan OCR için tasarlanmıştır.

Ana bileşenler:

Görüntü ön işleme
- Giriş görüntüleri yeniden boyutlandırılır ve normalleştirilir.
Görsel Transformer omurgası
- Görüntüler yamalara bölünür.
- Her yama gömülmelere kodlanır.
Sıkıştırılmış belirteçleştirme
- Çok başlı dikkat ve ileri beslemeli ağlar, görsel bağlamı kısa belirteçlere dönüştürür.
LLM entegrasyonu
- Görsel belirteçler metin istemlerinin başına eklenebilir.
- Böylece bağlam uzunluğu ve bellek kullanımı azaltılabilir.
Uzamsal temellendirme
- Özel belirteçler, sorguların görseldeki belirli koordinatlara veya bölgelere bağlanmasını sağlar.
Optimize edilmiş eğitim
- Eşleştirilmiş görüntü-metin veri kümeleri üzerinde ince ayar yapılır.
- Amaç, sıkıştırma ve doğruluk arasında denge kurmaktır.

Dinamik mod, birden çok geçişten gelen gömülmeleri birleştirerek farklı boyutlardaki belgelerde tutarlı çıktı üretmeye yardımcı olur.

Kurulum Rehberi: DeepSeek-OCR'a Başlamak

DeepSeek-OCR'ı CUDA destekli modern bir Python ortamında çalıştırabilirsiniz.

Aşağıdaki akış, yerel geliştirme ortamı hazırlamak için pratik bir başlangıç sağlar.

1. Conda ortamını oluşturun

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

2. Depoyu klonlayın

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

3. Gereksinimleri yükleyin

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

4. PyTorch ve bağımlılıklarını yükleyin

CUDA 11.8 için:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

5. vLLM wheel dosyasını yükleyin

Önce vLLM-0.8.5 wheel dosyasını resmi sürümden indirin. Ardından:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

Not: Belgelerde belirtildiği gibi vLLM ve Transformers ile ilgili bazı uyarılar göz ardı edilebilir.

Basit Bir OCR İş Akışı Nasıl Tasarlanır?

DeepSeek-OCR'ı üretime taşırken yalnızca modeli çalıştırmak yeterli değildir. Tipik bir API tabanlı iş akışı şu adımlardan oluşur:

Kullanıcı belge veya görsel yükler.
API dosyayı alır ve geçici depolamaya yazar.
DeepSeek-OCR uygun çözünürlük moduyla çalıştırılır.
Çıktı markdown, JSON veya metin formatında döndürülür.
Sonuç LLM, arama indeksi veya belge yönetim sistemine aktarılır.

Örnek API taslağı:

POST /ocr
Content-Type: multipart/form-data

Örnek yanıt yapısı:

{
  "mode": "base",
  "format": "markdown",
  "content": "# Fatura\n\n| Kalem | Tutar |\n| --- | --- |\n| Hizmet | 1000 |",
  "references": []
}

Bu yapı, OCR çıktısını sonraki LLM veya veri işleme adımlarına daha kolay bağlamanızı sağlar.

Performans ve Kıyaslama

DeepSeek-OCR yüksek verimlilik ve doğruluk için tasarlanmıştır.

Öne çıkan metrikler:

Hız: A100-40G GPU üzerinde 2500 belirteç/saniyeye kadar
Kıyaslamalar:
- Fox ve OmniDocBench üzerinde OCR hassasiyeti, düzen koruma ve şekil ayrıştırmada güçlü performans
Sıkıştırma:
- %95'ten fazla çıkarma doğruluğunu korurken belirteçleri %50 oranında azaltma
Çözünürlük ölçeklendirme:
- Daha yüksek modlar daha fazla detay sunar ancak daha fazla belirteç tüketir.
- “Base” mod çoğu üretim senaryosu için dengeli bir seçenektir.

DeepSeek-OCR'ı Diğer OCR Çözümleriyle Karşılaştırma

Özellik	DeepSeek-OCR	PaddleOCR	GOT-OCR2.0	MinerU	Tesseract
LLM Entegrasyonu	Evet	Hayır	Kısmi	Hayır	Hayır
Bağlamsal Çıktı	Evet	Hayır	Kısmi	Hayır	Hayır
Dinamik Çözünürlük	Evet	Hayır	Hayır	Hayır	Hayır
Temellendirme Desteği	Evet	Hayır	Hayır	Hayır	Hayır
Belirteç Sıkıştırma	Yüksek	Orta	Orta	Düşük	Düşük
Markdown Çıktı	Evet	Hayır	Hayır	Hayır	Hayır

DeepSeek-OCR; LLM uyumluluğu, bağlam koruma ve görsel belirteç sıkıştırma özellikleriyle modern yapay zeka ve API tabanlı uygulamalarda öne çıkar.

DeepSeek-OCR API Entegrasyonu İçin Apidog Neden Önemli?

DeepSeek-OCR'ı gerçek dünya projelerine entegre ederken şu problemleri çözmeniz gerekir:

OCR uç noktalarını test etmek
Dosya yükleme akışlarını doğrulamak
Yanıt şemalarını standardize etmek
Hata durumlarını simüle etmek
Performansı izlemek
Ekip içinde API koleksiyonlarını paylaşmak

Apidog bu noktada birleşik bir API geliştirme ve test platformu sağlar.

Pratik olarak şu işlerde kullanılabilir:

Hızlı API testi: OCR uç noktalarını, request payload'larını ve response çıktılarını doğrulayın.
Mock veri ve otomasyon: Üretim bağımlılıkları olmadan OCR API davranışını simüle edin.
Performans izleme: Yanıt sürelerini ve hata oranlarını takip edin.
Ekip işbirliği: API koleksiyonlarını paylaşarak hata ayıklama ve iterasyon sürecini hızlandırın.

Örneğin DeepSeek-OCR için şu uç noktaları Apidog üzerinde tanımlayabilirsiniz:

POST /ocr
GET /ocr/{jobId}
GET /ocr/{jobId}/result

Örnek hata yanıtı:

{
  "error": "UNSUPPORTED_FILE_TYPE",
  "message": "Yalnızca desteklenen görüntü veya belge formatları yüklenebilir."
}

Bu yaklaşım, OCR servisinizin yalnızca model seviyesinde değil, API sözleşmesi seviyesinde de test edilebilir olmasını sağlar.

Sonuç

DeepSeek-OCR, görsel veriler ile LLM destekli metin iş akışları arasındaki boşluğu azaltan güçlü bir OCR yaklaşımı sunar. Bağlam koruma, markdown çıktısı, dinamik çözünürlük ve temellendirme desteği sayesinde belge işleme, görsel soru-cevap ve API tabanlı OCR sistemleri için uygulanabilir bir seçenek haline gelir.

DeepSeek-OCR'ı üretime taşırken modeli çalıştırmanın yanında API tasarımı, test, mock veri, hata senaryoları ve performans izleme süreçlerini de planlamak gerekir. Apidog gibi araçlar, bu entegrasyon sürecini daha düzenli ve sürdürülebilir hale getirir.

DEV Community