DEV Community

Cover image for DeepSeek-OCR: Bahnbrechende kontextuelle OCR für KI- und API-Workflows
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

DeepSeek-OCR: Bahnbrechende kontextuelle OCR für KI- und API-Workflows

Entwickler und KI-Ingenieure müssen visuelle Daten wie Bilder, Scans und Dokumente oft so aufbereiten, dass große Sprachmodelle (LLMs) sie effizient weiterverarbeiten können. DeepSeek-OCR adressiert genau diesen Use Case mit „kontextueller optischer Kompression“: komplexe visuelle Informationen werden in kompakte, kontextreiche Text-Tokens umgewandelt.

Teste Apidog noch heute

DeepSeek-OCR wurde im Oktober 2025 veröffentlicht und richtet sich an Teams, die Dokumentenautomatisierung, Bild-zu-Text-Konvertierung oder visuelle Datenanalyse in LLM-Workflows integrieren. Das Modell ist darauf ausgelegt, OCR-Ergebnisse nicht nur als Rohtext, sondern mit Layout-, Struktur- und Kontextinformationen bereitzustellen.

Was ist kontextuelle optische Kompression?

Kontextuelle optische Kompression bedeutet: Ein Bild wird nicht nur per OCR in Text umgewandelt, sondern in eine kompakte Repräsentation, die für LLMs besser nutzbar ist.

Im Unterschied zu klassischer OCR versucht DeepSeek-OCR, zusätzliche Informationen zu erhalten:

  • Dokumentenstruktur: Überschriften, Absätze, Listen und Tabellen
  • Räumliche Beziehungen: Positionen und Layout-Zusammenhänge
  • Kontext: visuelle Informationen, die für spätere LLM-Prompts relevant sind
  • Token-Effizienz: weniger Tokens bei möglichst hoher Informationsdichte

Das ist besonders relevant, wenn OCR-Ausgaben in nachgelagerten Pipelines verarbeitet werden, zum Beispiel:

Scan / Bild
   ↓
DeepSeek-OCR
   ↓
Markdown / strukturierter Text
   ↓
LLM-Prompt
   ↓
Zusammenfassung, Extraktion, QA oder Klassifikation
Enter fullscreen mode Exit fullscreen mode

Technische Grundlagen: Wie DeepSeek-OCR arbeitet

DeepSeek-OCR nutzt einen LLM-zentrierten Vision-Encoder. Ziel ist es, visuelle Eingaben in wenige, aber informative Tokens zu komprimieren.

Der typische Ablauf sieht so aus:

  1. Bildanalyse

    Das Eingabebild wird in nativer oder angepasster Auflösung analysiert. Dabei werden Textbereiche, Layout und visuelle Elemente erkannt.

  2. Token-Generierung

    Visuelle Merkmale werden in komprimierte Tokens übersetzt. Diese Tokens können unterschiedliche Bereiche wie Überschriften, Fließtext oder Tabellen repräsentieren.

  3. Dynamische Auflösung

    Der „Gundam“-Modus kombiniert mehrere Bildsegmente, um dichte oder sehr große Dokumente zu verarbeiten.

  4. Grounding-Tags

    Spezielle Referenzen wie <|ref|>xxxx<|/ref|> ermöglichen die Lokalisierung bestimmter Elemente im Bild.

Unterstützte Token-Modi

Modus Auflösung Tokens
Tiny 512×512 px 64
Small 640×640 px 100
Base 1024×1024 px 256
Large 1280×1280 px 400

Für produktive Workflows ist der Modus entscheidend:

  • Tiny / Small: schnelle Vorschau, geringe Kosten
  • Base: guter Standard für viele Dokumente
  • Large: mehr Detailtiefe bei komplexen Layouts
  • Gundam-Modus: große oder sehr dichte Dokumente

DeepSeek-OCR in Aktion: Relevante Funktionen für Entwickler

DeepSeek-OCR ist für OCR-Workflows konzipiert, die über einfache Textextraktion hinausgehen.

Wichtige Funktionen:

  • Flexible native Auflösung: Auswahl des passenden Modus je nach Dokumenttyp
  • Dynamischer „Gundam“-Modus: Verarbeitung sehr großer oder dichter Dokumente
  • Markdown-Ausgabe: strukturierte Ausgabe mit Tabellen, Listen und Hierarchien
  • Figuren-Parsing: Extraktion von Informationen aus Diagrammen und Grafiken
  • Bildbeschreibung: Generierung kontextbezogener Beschreibungen
  • Grounding: Referenzierung bestimmter Bildelemente oder Regionen
  • Schnelle Inferenz: bis zu 2500 Tokens/Sek. auf einer A100-40G GPU
  • Kompatibilität: vLLM- und Transformers-kompatibel

Image

Typische Anwendungsfälle:

  • Dokumentenverarbeitung in Finanz- oder Rechts-Workflows
  • Visuelle Frage-Antwort-Systeme
  • Barrierefreiheits-Tools mit detaillierten Bildbeschreibungen
  • Batch-OCR-Pipelines für Archivierung
  • Extraktion strukturierter Informationen aus gescannten Formularen

Architektur von DeepSeek-OCR

Die Architektur ist auf effiziente, kontextbezogene OCR optimiert.

Zentrale Komponenten:

  • Bildvorverarbeitung: Größenanpassung und Normalisierung der Eingaben
  • Vision Transformer Backbone: Aufteilung des Bildes in Patches und Kodierung in Embeddings
  • Komprimierte Tokenisierung: Verdichtung visueller Informationen durch Attention- und Feed-Forward-Schichten
  • LLM-Integration: Vision-Tokens werden vor Text-Prompts eingefügt
  • Spatial Grounding: Zuordnung von Abfragen zu Bildregionen oder Koordinaten
  • Optimiertes Training: Feinabstimmung auf gepaarte Bild-Text-Daten

Image

Der dynamische Modus fügt Embeddings aus mehreren Durchgängen zusammen. Dadurch können Dokumente mit unterschiedlichen Größen konsistenter verarbeitet werden.

Image

Installation: DeepSeek-OCR lokal einrichten

Richten Sie DeepSeek-OCR in einer Python-Umgebung mit CUDA-Unterstützung ein.

1. Conda-Umgebung erstellen

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
Enter fullscreen mode Exit fullscreen mode

2. Repository klonen

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
Enter fullscreen mode Exit fullscreen mode

3. Anforderungen installieren

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
Enter fullscreen mode Exit fullscreen mode

4. PyTorch mit CUDA installieren

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
Enter fullscreen mode Exit fullscreen mode

5. vLLM Wheel installieren

Laden Sie das passende vllm-0.8.5 Wheel aus der offiziellen Version herunter und installieren Sie es:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
Enter fullscreen mode Exit fullscreen mode

Hinweis: Laut Dokumentation können bestimmte Fehler im Zusammenhang mit vLLM und Transformers ignoriert werden.

Praktischer Workflow: Von Bild zu LLM-Input

Ein typischer Implementierungsablauf sieht so aus:

1. Eingabedateien sammeln
2. Bildauflösung und OCR-Modus auswählen
3. DeepSeek-OCR ausführen
4. Markdown oder strukturierte Ausgabe speichern
5. Ausgabe an ein LLM oder eine API-Pipeline übergeben
6. Ergebnis validieren und überwachen
Enter fullscreen mode Exit fullscreen mode

Beispielhafte Projektstruktur:

ocr-pipeline/
├── input/
│   ├── invoice-001.png
│   └── contract-001.pdf
├── output/
│   ├── invoice-001.md
│   └── contract-001.md
├── scripts/
│   └── run_ocr.py
└── README.md
Enter fullscreen mode Exit fullscreen mode

Für produktive Verarbeitung sollten Sie zusätzlich berücksichtigen:

  • Dateigrößen begrenzen
  • OCR-Modus pro Dokumenttyp festlegen
  • Ergebnisse versionieren
  • Fehlerfälle speichern
  • Antwortzeiten messen
  • Batch-Jobs von Echtzeit-Endpunkten trennen

Leistung und Benchmarking

DeepSeek-OCR ist auf hohen Durchsatz und hohe Genauigkeit ausgelegt.

Wichtige Kennzahlen aus dem ursprünglichen Material:

  • Geschwindigkeit: bis zu 2500 Tokens/Sek. auf einer A100-40G GPU
  • Benchmarks: starke Ergebnisse bei Fox und OmniDocBench
  • Kompression: bis zu 50% weniger Tokens bei über 95% Extraktionsgenauigkeit
  • Auflösungsskalierung: höhere Modi liefern mehr Details, benötigen aber mehr Tokens

Für die Praxis bedeutet das:

  • Nutzen Sie Base als Startpunkt für die meisten Dokumente.
  • Wechseln Sie zu Large, wenn kleine Schrift, Tabellen oder komplexe Layouts wichtig sind.
  • Verwenden Sie Tiny oder Small, wenn Geschwindigkeit wichtiger ist als Detailtiefe.
  • Testen Sie den „Gundam“-Modus für große oder sehr dichte Dokumente.

Image

DeepSeek-OCR im Vergleich mit anderen OCR-Lösungen

Funktion DeepSeek-OCR PaddleOCR GOT-OCR2.0 MinerU Tesseract
LLM-Integration Ja Nein Teilweise Nein Nein
Kontextbezogene Ausgabe Ja Nein Teilweise Nein Nein
Dynamische Auflösung Ja Nein Nein Nein Nein
Grounding-Unterstützung Ja Nein Nein Nein Nein
Token-Kompression Hoch Mittel Mittel Niedrig Niedrig
Markdown-Ausgabe Ja Nein Nein Nein Nein

DeepSeek-OCR ist besonders relevant, wenn OCR-Ergebnisse direkt in LLM-basierte Workflows integriert werden sollen. Klassische OCR-Tools können für einfache Textextraktion ausreichend sein, bieten aber meist weniger Kontextinformationen für nachgelagerte LLM-Aufgaben.

Image

Warum Apidog für die DeepSeek-OCR-API-Integration nützlich ist

Wenn DeepSeek-OCR als API in eine Anwendung eingebunden wird, entstehen typische Engineering-Aufgaben:

  • Endpunkte definieren
  • Requests und Responses testen
  • Beispiel-Payloads dokumentieren
  • Mock-APIs für Frontend- oder Integrationstests bereitstellen
  • Antwortzeiten und Fehler prüfen
  • API-Sammlungen im Team teilen

Apidog kann dabei helfen, OCR-APIs während Entwicklung, Test und Integration zentral zu verwalten.

Beispiel für einen möglichen OCR-Request:

POST /ocr
Content-Type: multipart/form-data

file=@document.png
mode=base
output=markdown
Enter fullscreen mode Exit fullscreen mode

Beispielhafte Antwortstruktur:

{
  "filename": "document.png",
  "mode": "base",
  "output_format": "markdown",
  "content": "# Dokumenttitel\n\nExtrahierter Inhalt...",
  "metadata": {
    "tokens": 256,
    "processing_time_ms": 842
  }
}
Enter fullscreen mode Exit fullscreen mode

Mit solchen Beispielantworten können Sie in Apidog Tests, Dokumentation und Mocking für Ihre OCR-Pipeline vorbereiten.

Fazit

DeepSeek-OCR verbindet OCR, visuelle Kompression und LLM-orientierte Verarbeitung. Statt nur Rohtext aus Bildern zu extrahieren, liefert es kontextreichere Repräsentationen, die sich besser für Dokumentenautomatisierung, visuelle Analyse und LLM-Pipelines eignen.

Für Entwickler ist besonders wichtig:

  • passenden Auflösungsmodus wählen
  • OCR-Ausgabe strukturiert speichern
  • API-Endpunkte sauber testen
  • Performance und Fehlerfälle überwachen
  • Ergebnisse für nachgelagerte LLM-Schritte optimieren

In Kombination mit API-Tools wie Apidog lässt sich DeepSeek-OCR einfacher in produktionsnahe Workflows integrieren.

Top comments (0)