Geliştiriciler ve yapay zeka mühendisleri, büyük dil modellerinde (LLM'ler) görsel verileri (görseller ve belgeler gibi) metin tabanlı işlemeyle birleştirme zorluğuyla sık sık karşılaşır. DeepSeek-AI, bu problemi “bağlamlar optik sıkıştırması” için tasarlanmış DeepSeek-OCR ile ele alır: karmaşık görsel bilgileri, LLM'lerin işleyebileceği kısa ve bağlam açısından zengin metin belirteçlerine dönüştürür.
Ekim 2025'te yayınlanan DeepSeek-OCR; belge otomasyonu, görüntüden metne dönüştürme ve görsel veri analizi üzerinde çalışan ekipler için LLM odaklı bir OCR yaklaşımı sunar. Amaç; doğruluğu korurken hesaplama yükünü azaltmak, düzen bilgisini kaybetmemek ve büyük ölçekli iş yüklerinde daha verimli çıkarım sağlamaktır.
Bağlamlar Optik Sıkıştırması Nedir?
Bağlamlar optik sıkıştırması, görüntüleri LLM tüketimi için kompakt ve bilgi yoğun metin belirteçlerine dönüştürme sürecidir.
Klasik OCR araçları çoğunlukla “görüntüden düz metin çıkarma” üzerine odaklanır. DeepSeek-OCR ise yalnızca metni değil, şu bilgileri de korumaya çalışır:
- Belge düzeni
- Başlık/gövde ilişkisi
- Tablo yapıları
- Uzamsal referanslar
- Görsel öğelerin bağlamı
Bu yaklaşım, OCR çıktısını doğrudan LLM iş akışlarında kullanmayı kolaylaştırır.
Temel avantajlar:
- Zengin bağlam: Belge yapısını, başlıkları, tabloları ve uzamsal ilişkileri korur.
- Esnek çözünürlük modları: Hızlı önizleme için küçük modlardan, daha detaylı analiz için büyük modlara kadar farklı seçenekler sunar.
- Temellendirme yetenekleri: Görseldeki öğeler için konum referansı sağlar.
- LLM uyumluluğu: Çıktıyı LLM'lerin işleyebileceği sıkıştırılmış belirteçler halinde üretir.
Tesseract gibi geleneksel OCR araçları karmaşık düzenlerde, bozuk taramalarda veya çok dilli belgelerde zorlanabilir. DeepSeek-OCR ise derin sinir mimarilerinden yararlanarak daha bağlamlı bir çıktı üretmeyi hedefler.
DeepSeek-OCR Nasıl Çalışır?
DeepSeek-OCR, görsel verileri minimal ama bilgilendirici bir belirteç setine sıkıştıran LLM merkezli bir görsel kodlayıcı kullanır.
Tipik iş akışı şu şekildedir:
-
Görüntü analizi
- Giriş görüntüsü yerel çözünürlüğünde işlenir.
- Metin, düzen, şekiller ve görsel bölgeler ayrıştırılır.
-
Belirteç üretimi
- Görsel özellikler sıkıştırılmış gösterimlere dönüştürülür.
- Başlıklar, gövde metni, tablolar ve şekiller gibi bölümler ayrıştırılır.
-
Dinamik çözünürlük
- “Gundam” modu, yoğun veya çok büyük belgelerde birden fazla görüntü segmentini birlikte işler.
-
Temellendirme etiketleri
- Görseldeki belirli öğeleri işaretlemek için özel referanslar kullanılabilir:
<|ref|>xxxx<|/ref|>
Bu yapı; AR, etkileşimli belge arayüzleri veya belirli belge bölgelerinden veri çıkarma senaryolarında kullanılabilir.
Belirteç Modları
DeepSeek-OCR farklı çözünürlük/belirteç modları sunar:
| Mod | Çözünürlük | Belirteç |
|---|---|---|
| Tiny | 512×512 px | 64 |
| Small | 640×640 px | 100 |
| Base | 1024×1024 px | 256 |
| Large | 1280×1280 px | 400 |
Pratik seçim önerisi:
- Tiny / Small: Hızlı önizleme, düşük maliyetli denemeler
- Base: Çoğu üretim senaryosu için dengeli seçenek
- Large: Daha fazla detay gerektiren belgeler
- Gundam modu: Çok büyük veya yoğun belgeler
Geliştiriciler İçin Öne Çıkan Özellikler
DeepSeek-OCR, modern yapay zeka ve API tabanlı uygulamalar için şu özellikleri sağlar:
- Yerel çözünürlük esnekliği: Kullanım senaryonuza göre uygun modu seçebilirsiniz.
- Dinamik “Gundam” modu: Ultra yüksek çözünürlüklü belgeleri segmentler halinde işler.
- Markdown çıktısı: Belgeleri tablolar, listeler ve hiyerarşi korunacak şekilde yapılandırılmış markdown'a dönüştürür.
- Şekil ayrıştırma: Grafikler ve çizelgelerden veri ve açıklama çıkarabilir.
- Genel görüntü açıklaması: Görseller için bağlam farkındalığı olan açıklamalar oluşturabilir.
- Konum referanslama: Belirli öğeler hakkında veri sorgulama veya çıkarma yapılabilir.
- Hızlı çıkarım: Bir A100-40G GPU üzerinde vLLM ve Transformers uyumlu şekilde 2500 belirteç/saniye hızına ulaşabilir.
- Hafif dağıtım: Güvenli ve ölçeklenebilir entegrasyonlar için minimum bağımlılık hedefler.
Örnek Kullanım Senaryoları
DeepSeek-OCR özellikle şu iş akışlarında değerlendirilebilir:
- Finansal veya hukuki belgelerde otomatik belge işleme
- Görsel soru-cevap sistemleri
- Erişilebilirlik araçları için zengin görüntü açıklamaları
- Dijital arşivleme için toplu OCR ardışık düzenleri
- API tabanlı belge işleme servisleri
- Markdown çıktısı gerektiren belge dönüştürme sistemleri
Kaputun Altında: DeepSeek-OCR Mimarisi
DeepSeek-OCR mimarisi, verimli ve bağlam farkındalığı olan OCR için tasarlanmıştır.
Ana bileşenler:
-
Görüntü ön işleme
- Giriş görüntüleri yeniden boyutlandırılır ve normalleştirilir.
-
Görsel Transformer omurgası
- Görüntüler yamalara bölünür.
- Her yama gömülmelere kodlanır.
-
Sıkıştırılmış belirteçleştirme
- Çok başlı dikkat ve ileri beslemeli ağlar, görsel bağlamı kısa belirteçlere dönüştürür.
-
LLM entegrasyonu
- Görsel belirteçler metin istemlerinin başına eklenebilir.
- Böylece bağlam uzunluğu ve bellek kullanımı azaltılabilir.
-
Uzamsal temellendirme
- Özel belirteçler, sorguların görseldeki belirli koordinatlara veya bölgelere bağlanmasını sağlar.
-
Optimize edilmiş eğitim
- Eşleştirilmiş görüntü-metin veri kümeleri üzerinde ince ayar yapılır.
- Amaç, sıkıştırma ve doğruluk arasında denge kurmaktır.
Dinamik mod, birden çok geçişten gelen gömülmeleri birleştirerek farklı boyutlardaki belgelerde tutarlı çıktı üretmeye yardımcı olur.
Kurulum Rehberi: DeepSeek-OCR'a Başlamak
DeepSeek-OCR'ı CUDA destekli modern bir Python ortamında çalıştırabilirsiniz.
Aşağıdaki akış, yerel geliştirme ortamı hazırlamak için pratik bir başlangıç sağlar.
1. Conda ortamını oluşturun
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
2. Depoyu klonlayın
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
3. Gereksinimleri yükleyin
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
4. PyTorch ve bağımlılıklarını yükleyin
CUDA 11.8 için:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
5. vLLM wheel dosyasını yükleyin
Önce vLLM-0.8.5 wheel dosyasını resmi sürümden indirin. Ardından:
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
Not: Belgelerde belirtildiği gibi vLLM ve Transformers ile ilgili bazı uyarılar göz ardı edilebilir.
Basit Bir OCR İş Akışı Nasıl Tasarlanır?
DeepSeek-OCR'ı üretime taşırken yalnızca modeli çalıştırmak yeterli değildir. Tipik bir API tabanlı iş akışı şu adımlardan oluşur:
- Kullanıcı belge veya görsel yükler.
- API dosyayı alır ve geçici depolamaya yazar.
- DeepSeek-OCR uygun çözünürlük moduyla çalıştırılır.
- Çıktı markdown, JSON veya metin formatında döndürülür.
- Sonuç LLM, arama indeksi veya belge yönetim sistemine aktarılır.
Örnek API taslağı:
POST /ocr
Content-Type: multipart/form-data
Örnek yanıt yapısı:
{
"mode": "base",
"format": "markdown",
"content": "# Fatura\n\n| Kalem | Tutar |\n| --- | --- |\n| Hizmet | 1000 |",
"references": []
}
Bu yapı, OCR çıktısını sonraki LLM veya veri işleme adımlarına daha kolay bağlamanızı sağlar.
Performans ve Kıyaslama
DeepSeek-OCR yüksek verimlilik ve doğruluk için tasarlanmıştır.
Öne çıkan metrikler:
- Hız: A100-40G GPU üzerinde 2500 belirteç/saniyeye kadar
-
Kıyaslamalar:
- Fox ve OmniDocBench üzerinde OCR hassasiyeti, düzen koruma ve şekil ayrıştırmada güçlü performans
-
Sıkıştırma:
- %95'ten fazla çıkarma doğruluğunu korurken belirteçleri %50 oranında azaltma
-
Çözünürlük ölçeklendirme:
- Daha yüksek modlar daha fazla detay sunar ancak daha fazla belirteç tüketir.
- “Base” mod çoğu üretim senaryosu için dengeli bir seçenektir.
DeepSeek-OCR'ı Diğer OCR Çözümleriyle Karşılaştırma
| Özellik | DeepSeek-OCR | PaddleOCR | GOT-OCR2.0 | MinerU | Tesseract |
|---|---|---|---|---|---|
| LLM Entegrasyonu | Evet | Hayır | Kısmi | Hayır | Hayır |
| Bağlamsal Çıktı | Evet | Hayır | Kısmi | Hayır | Hayır |
| Dinamik Çözünürlük | Evet | Hayır | Hayır | Hayır | Hayır |
| Temellendirme Desteği | Evet | Hayır | Hayır | Hayır | Hayır |
| Belirteç Sıkıştırma | Yüksek | Orta | Orta | Düşük | Düşük |
| Markdown Çıktı | Evet | Hayır | Hayır | Hayır | Hayır |
DeepSeek-OCR; LLM uyumluluğu, bağlam koruma ve görsel belirteç sıkıştırma özellikleriyle modern yapay zeka ve API tabanlı uygulamalarda öne çıkar.
DeepSeek-OCR API Entegrasyonu İçin Apidog Neden Önemli?
DeepSeek-OCR'ı gerçek dünya projelerine entegre ederken şu problemleri çözmeniz gerekir:
- OCR uç noktalarını test etmek
- Dosya yükleme akışlarını doğrulamak
- Yanıt şemalarını standardize etmek
- Hata durumlarını simüle etmek
- Performansı izlemek
- Ekip içinde API koleksiyonlarını paylaşmak
Apidog bu noktada birleşik bir API geliştirme ve test platformu sağlar.
Pratik olarak şu işlerde kullanılabilir:
- Hızlı API testi: OCR uç noktalarını, request payload'larını ve response çıktılarını doğrulayın.
- Mock veri ve otomasyon: Üretim bağımlılıkları olmadan OCR API davranışını simüle edin.
- Performans izleme: Yanıt sürelerini ve hata oranlarını takip edin.
- Ekip işbirliği: API koleksiyonlarını paylaşarak hata ayıklama ve iterasyon sürecini hızlandırın.
Örneğin DeepSeek-OCR için şu uç noktaları Apidog üzerinde tanımlayabilirsiniz:
POST /ocr
GET /ocr/{jobId}
GET /ocr/{jobId}/result
Örnek hata yanıtı:
{
"error": "UNSUPPORTED_FILE_TYPE",
"message": "Yalnızca desteklenen görüntü veya belge formatları yüklenebilir."
}
Bu yaklaşım, OCR servisinizin yalnızca model seviyesinde değil, API sözleşmesi seviyesinde de test edilebilir olmasını sağlar.
Sonuç
DeepSeek-OCR, görsel veriler ile LLM destekli metin iş akışları arasındaki boşluğu azaltan güçlü bir OCR yaklaşımı sunar. Bağlam koruma, markdown çıktısı, dinamik çözünürlük ve temellendirme desteği sayesinde belge işleme, görsel soru-cevap ve API tabanlı OCR sistemleri için uygulanabilir bir seçenek haline gelir.
DeepSeek-OCR'ı üretime taşırken modeli çalıştırmanın yanında API tasarımı, test, mock veri, hata senaryoları ve performans izleme süreçlerini de planlamak gerekir. Apidog gibi araçlar, bu entegrasyon sürecini daha düzenli ve sürdürülebilir hale getirir.





Top comments (0)