Emre Demir

Posted on Jun 23 • Originally published at apidog.com

DeepSeek-OCR: Bahnbrechende kontextuelle OCR für KI- und API-Workflows

Entwickler und KI-Ingenieure müssen visuelle Daten wie Bilder, Scans und Dokumente oft so aufbereiten, dass große Sprachmodelle (LLMs) sie effizient weiterverarbeiten können. DeepSeek-OCR adressiert genau diesen Use Case mit „kontextueller optischer Kompression“: komplexe visuelle Informationen werden in kompakte, kontextreiche Text-Tokens umgewandelt.

Teste Apidog noch heute

DeepSeek-OCR wurde im Oktober 2025 veröffentlicht und richtet sich an Teams, die Dokumentenautomatisierung, Bild-zu-Text-Konvertierung oder visuelle Datenanalyse in LLM-Workflows integrieren. Das Modell ist darauf ausgelegt, OCR-Ergebnisse nicht nur als Rohtext, sondern mit Layout-, Struktur- und Kontextinformationen bereitzustellen.

Was ist kontextuelle optische Kompression?

Kontextuelle optische Kompression bedeutet: Ein Bild wird nicht nur per OCR in Text umgewandelt, sondern in eine kompakte Repräsentation, die für LLMs besser nutzbar ist.

Im Unterschied zu klassischer OCR versucht DeepSeek-OCR, zusätzliche Informationen zu erhalten:

Dokumentenstruktur: Überschriften, Absätze, Listen und Tabellen
Räumliche Beziehungen: Positionen und Layout-Zusammenhänge
Kontext: visuelle Informationen, die für spätere LLM-Prompts relevant sind
Token-Effizienz: weniger Tokens bei möglichst hoher Informationsdichte

Das ist besonders relevant, wenn OCR-Ausgaben in nachgelagerten Pipelines verarbeitet werden, zum Beispiel:

Scan / Bild
   ↓
DeepSeek-OCR
   ↓
Markdown / strukturierter Text
   ↓
LLM-Prompt
   ↓
Zusammenfassung, Extraktion, QA oder Klassifikation

Technische Grundlagen: Wie DeepSeek-OCR arbeitet

DeepSeek-OCR nutzt einen LLM-zentrierten Vision-Encoder. Ziel ist es, visuelle Eingaben in wenige, aber informative Tokens zu komprimieren.

Der typische Ablauf sieht so aus:

Bildanalyse

Das Eingabebild wird in nativer oder angepasster Auflösung analysiert. Dabei werden Textbereiche, Layout und visuelle Elemente erkannt.
Token-Generierung

Visuelle Merkmale werden in komprimierte Tokens übersetzt. Diese Tokens können unterschiedliche Bereiche wie Überschriften, Fließtext oder Tabellen repräsentieren.
Dynamische Auflösung

Der „Gundam“-Modus kombiniert mehrere Bildsegmente, um dichte oder sehr große Dokumente zu verarbeiten.
Grounding-Tags

Spezielle Referenzen wie <|ref|>xxxx<|/ref|> ermöglichen die Lokalisierung bestimmter Elemente im Bild.

Unterstützte Token-Modi

Modus	Auflösung	Tokens
Tiny	512×512 px	64
Small	640×640 px	100
Base	1024×1024 px	256
Large	1280×1280 px	400

Für produktive Workflows ist der Modus entscheidend:

Tiny / Small: schnelle Vorschau, geringe Kosten
Base: guter Standard für viele Dokumente
Large: mehr Detailtiefe bei komplexen Layouts
Gundam-Modus: große oder sehr dichte Dokumente

DeepSeek-OCR in Aktion: Relevante Funktionen für Entwickler

DeepSeek-OCR ist für OCR-Workflows konzipiert, die über einfache Textextraktion hinausgehen.

Wichtige Funktionen:

Flexible native Auflösung: Auswahl des passenden Modus je nach Dokumenttyp
Dynamischer „Gundam“-Modus: Verarbeitung sehr großer oder dichter Dokumente
Markdown-Ausgabe: strukturierte Ausgabe mit Tabellen, Listen und Hierarchien
Figuren-Parsing: Extraktion von Informationen aus Diagrammen und Grafiken
Bildbeschreibung: Generierung kontextbezogener Beschreibungen
Grounding: Referenzierung bestimmter Bildelemente oder Regionen
Schnelle Inferenz: bis zu 2500 Tokens/Sek. auf einer A100-40G GPU
Kompatibilität: vLLM- und Transformers-kompatibel

Typische Anwendungsfälle:

Dokumentenverarbeitung in Finanz- oder Rechts-Workflows
Visuelle Frage-Antwort-Systeme
Barrierefreiheits-Tools mit detaillierten Bildbeschreibungen
Batch-OCR-Pipelines für Archivierung
Extraktion strukturierter Informationen aus gescannten Formularen

Architektur von DeepSeek-OCR

Die Architektur ist auf effiziente, kontextbezogene OCR optimiert.

Zentrale Komponenten:

Bildvorverarbeitung: Größenanpassung und Normalisierung der Eingaben
Vision Transformer Backbone: Aufteilung des Bildes in Patches und Kodierung in Embeddings
Komprimierte Tokenisierung: Verdichtung visueller Informationen durch Attention- und Feed-Forward-Schichten
LLM-Integration: Vision-Tokens werden vor Text-Prompts eingefügt
Spatial Grounding: Zuordnung von Abfragen zu Bildregionen oder Koordinaten
Optimiertes Training: Feinabstimmung auf gepaarte Bild-Text-Daten

Der dynamische Modus fügt Embeddings aus mehreren Durchgängen zusammen. Dadurch können Dokumente mit unterschiedlichen Größen konsistenter verarbeitet werden.

Installation: DeepSeek-OCR lokal einrichten

Richten Sie DeepSeek-OCR in einer Python-Umgebung mit CUDA-Unterstützung ein.

1. Conda-Umgebung erstellen

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

2. Repository klonen

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

3. Anforderungen installieren

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

4. PyTorch mit CUDA installieren

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

5. vLLM Wheel installieren

Laden Sie das passende vllm-0.8.5 Wheel aus der offiziellen Version herunter und installieren Sie es:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

Hinweis: Laut Dokumentation können bestimmte Fehler im Zusammenhang mit vLLM und Transformers ignoriert werden.

Praktischer Workflow: Von Bild zu LLM-Input

Ein typischer Implementierungsablauf sieht so aus:

1. Eingabedateien sammeln
2. Bildauflösung und OCR-Modus auswählen
3. DeepSeek-OCR ausführen
4. Markdown oder strukturierte Ausgabe speichern
5. Ausgabe an ein LLM oder eine API-Pipeline übergeben
6. Ergebnis validieren und überwachen

Beispielhafte Projektstruktur:

ocr-pipeline/
├── input/
│   ├── invoice-001.png
│   └── contract-001.pdf
├── output/
│   ├── invoice-001.md
│   └── contract-001.md
├── scripts/
│   └── run_ocr.py
└── README.md

Für produktive Verarbeitung sollten Sie zusätzlich berücksichtigen:

Dateigrößen begrenzen
OCR-Modus pro Dokumenttyp festlegen
Ergebnisse versionieren
Fehlerfälle speichern
Antwortzeiten messen
Batch-Jobs von Echtzeit-Endpunkten trennen

Leistung und Benchmarking

DeepSeek-OCR ist auf hohen Durchsatz und hohe Genauigkeit ausgelegt.

Wichtige Kennzahlen aus dem ursprünglichen Material:

Geschwindigkeit: bis zu 2500 Tokens/Sek. auf einer A100-40G GPU
Benchmarks: starke Ergebnisse bei Fox und OmniDocBench
Kompression: bis zu 50% weniger Tokens bei über 95% Extraktionsgenauigkeit
Auflösungsskalierung: höhere Modi liefern mehr Details, benötigen aber mehr Tokens

Für die Praxis bedeutet das:

Nutzen Sie Base als Startpunkt für die meisten Dokumente.
Wechseln Sie zu Large, wenn kleine Schrift, Tabellen oder komplexe Layouts wichtig sind.
Verwenden Sie Tiny oder Small, wenn Geschwindigkeit wichtiger ist als Detailtiefe.
Testen Sie den „Gundam“-Modus für große oder sehr dichte Dokumente.

DeepSeek-OCR im Vergleich mit anderen OCR-Lösungen

Funktion	DeepSeek-OCR	PaddleOCR	GOT-OCR2.0	MinerU	Tesseract
LLM-Integration	Ja	Nein	Teilweise	Nein	Nein
Kontextbezogene Ausgabe	Ja	Nein	Teilweise	Nein	Nein
Dynamische Auflösung	Ja	Nein	Nein	Nein	Nein
Grounding-Unterstützung	Ja	Nein	Nein	Nein	Nein
Token-Kompression	Hoch	Mittel	Mittel	Niedrig	Niedrig
Markdown-Ausgabe	Ja	Nein	Nein	Nein	Nein

DeepSeek-OCR ist besonders relevant, wenn OCR-Ergebnisse direkt in LLM-basierte Workflows integriert werden sollen. Klassische OCR-Tools können für einfache Textextraktion ausreichend sein, bieten aber meist weniger Kontextinformationen für nachgelagerte LLM-Aufgaben.

Warum Apidog für die DeepSeek-OCR-API-Integration nützlich ist

Wenn DeepSeek-OCR als API in eine Anwendung eingebunden wird, entstehen typische Engineering-Aufgaben:

Endpunkte definieren
Requests und Responses testen
Beispiel-Payloads dokumentieren
Mock-APIs für Frontend- oder Integrationstests bereitstellen
Antwortzeiten und Fehler prüfen
API-Sammlungen im Team teilen

Apidog kann dabei helfen, OCR-APIs während Entwicklung, Test und Integration zentral zu verwalten.

Beispiel für einen möglichen OCR-Request:

POST /ocr
Content-Type: multipart/form-data

file=@document.png
mode=base
output=markdown

Beispielhafte Antwortstruktur:

{
  "filename": "document.png",
  "mode": "base",
  "output_format": "markdown",
  "content": "# Dokumenttitel\n\nExtrahierter Inhalt...",
  "metadata": {
    "tokens": 256,
    "processing_time_ms": 842
  }
}

Mit solchen Beispielantworten können Sie in Apidog Tests, Dokumentation und Mocking für Ihre OCR-Pipeline vorbereiten.

Fazit

DeepSeek-OCR verbindet OCR, visuelle Kompression und LLM-orientierte Verarbeitung. Statt nur Rohtext aus Bildern zu extrahieren, liefert es kontextreichere Repräsentationen, die sich besser für Dokumentenautomatisierung, visuelle Analyse und LLM-Pipelines eignen.

Für Entwickler ist besonders wichtig:

passenden Auflösungsmodus wählen
OCR-Ausgabe strukturiert speichern
API-Endpunkte sauber testen
Performance und Fehlerfälle überwachen
Ergebnisse für nachgelagerte LLM-Schritte optimieren

In Kombination mit API-Tools wie Apidog lässt sich DeepSeek-OCR einfacher in produktionsnahe Workflows integrieren.

DEV Community