Entwickler und KI-Ingenieure müssen visuelle Daten wie Bilder, Scans und Dokumente oft so aufbereiten, dass große Sprachmodelle (LLMs) sie effizient weiterverarbeiten können. DeepSeek-OCR adressiert genau diesen Use Case mit „kontextueller optischer Kompression“: komplexe visuelle Informationen werden in kompakte, kontextreiche Text-Tokens umgewandelt.
DeepSeek-OCR wurde im Oktober 2025 veröffentlicht und richtet sich an Teams, die Dokumentenautomatisierung, Bild-zu-Text-Konvertierung oder visuelle Datenanalyse in LLM-Workflows integrieren. Das Modell ist darauf ausgelegt, OCR-Ergebnisse nicht nur als Rohtext, sondern mit Layout-, Struktur- und Kontextinformationen bereitzustellen.
Was ist kontextuelle optische Kompression?
Kontextuelle optische Kompression bedeutet: Ein Bild wird nicht nur per OCR in Text umgewandelt, sondern in eine kompakte Repräsentation, die für LLMs besser nutzbar ist.
Im Unterschied zu klassischer OCR versucht DeepSeek-OCR, zusätzliche Informationen zu erhalten:
- Dokumentenstruktur: Überschriften, Absätze, Listen und Tabellen
- Räumliche Beziehungen: Positionen und Layout-Zusammenhänge
- Kontext: visuelle Informationen, die für spätere LLM-Prompts relevant sind
- Token-Effizienz: weniger Tokens bei möglichst hoher Informationsdichte
Das ist besonders relevant, wenn OCR-Ausgaben in nachgelagerten Pipelines verarbeitet werden, zum Beispiel:
Scan / Bild
↓
DeepSeek-OCR
↓
Markdown / strukturierter Text
↓
LLM-Prompt
↓
Zusammenfassung, Extraktion, QA oder Klassifikation
Technische Grundlagen: Wie DeepSeek-OCR arbeitet
DeepSeek-OCR nutzt einen LLM-zentrierten Vision-Encoder. Ziel ist es, visuelle Eingaben in wenige, aber informative Tokens zu komprimieren.
Der typische Ablauf sieht so aus:
Bildanalyse
Das Eingabebild wird in nativer oder angepasster Auflösung analysiert. Dabei werden Textbereiche, Layout und visuelle Elemente erkannt.Token-Generierung
Visuelle Merkmale werden in komprimierte Tokens übersetzt. Diese Tokens können unterschiedliche Bereiche wie Überschriften, Fließtext oder Tabellen repräsentieren.Dynamische Auflösung
Der „Gundam“-Modus kombiniert mehrere Bildsegmente, um dichte oder sehr große Dokumente zu verarbeiten.Grounding-Tags
Spezielle Referenzen wie<|ref|>xxxx<|/ref|>ermöglichen die Lokalisierung bestimmter Elemente im Bild.
Unterstützte Token-Modi
| Modus | Auflösung | Tokens |
|---|---|---|
| Tiny | 512×512 px | 64 |
| Small | 640×640 px | 100 |
| Base | 1024×1024 px | 256 |
| Large | 1280×1280 px | 400 |
Für produktive Workflows ist der Modus entscheidend:
- Tiny / Small: schnelle Vorschau, geringe Kosten
- Base: guter Standard für viele Dokumente
- Large: mehr Detailtiefe bei komplexen Layouts
- Gundam-Modus: große oder sehr dichte Dokumente
DeepSeek-OCR in Aktion: Relevante Funktionen für Entwickler
DeepSeek-OCR ist für OCR-Workflows konzipiert, die über einfache Textextraktion hinausgehen.
Wichtige Funktionen:
- Flexible native Auflösung: Auswahl des passenden Modus je nach Dokumenttyp
- Dynamischer „Gundam“-Modus: Verarbeitung sehr großer oder dichter Dokumente
- Markdown-Ausgabe: strukturierte Ausgabe mit Tabellen, Listen und Hierarchien
- Figuren-Parsing: Extraktion von Informationen aus Diagrammen und Grafiken
- Bildbeschreibung: Generierung kontextbezogener Beschreibungen
- Grounding: Referenzierung bestimmter Bildelemente oder Regionen
- Schnelle Inferenz: bis zu 2500 Tokens/Sek. auf einer A100-40G GPU
- Kompatibilität: vLLM- und Transformers-kompatibel
Typische Anwendungsfälle:
- Dokumentenverarbeitung in Finanz- oder Rechts-Workflows
- Visuelle Frage-Antwort-Systeme
- Barrierefreiheits-Tools mit detaillierten Bildbeschreibungen
- Batch-OCR-Pipelines für Archivierung
- Extraktion strukturierter Informationen aus gescannten Formularen
Architektur von DeepSeek-OCR
Die Architektur ist auf effiziente, kontextbezogene OCR optimiert.
Zentrale Komponenten:
- Bildvorverarbeitung: Größenanpassung und Normalisierung der Eingaben
- Vision Transformer Backbone: Aufteilung des Bildes in Patches und Kodierung in Embeddings
- Komprimierte Tokenisierung: Verdichtung visueller Informationen durch Attention- und Feed-Forward-Schichten
- LLM-Integration: Vision-Tokens werden vor Text-Prompts eingefügt
- Spatial Grounding: Zuordnung von Abfragen zu Bildregionen oder Koordinaten
- Optimiertes Training: Feinabstimmung auf gepaarte Bild-Text-Daten
Der dynamische Modus fügt Embeddings aus mehreren Durchgängen zusammen. Dadurch können Dokumente mit unterschiedlichen Größen konsistenter verarbeitet werden.
Installation: DeepSeek-OCR lokal einrichten
Richten Sie DeepSeek-OCR in einer Python-Umgebung mit CUDA-Unterstützung ein.
1. Conda-Umgebung erstellen
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
2. Repository klonen
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
3. Anforderungen installieren
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
4. PyTorch mit CUDA installieren
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
5. vLLM Wheel installieren
Laden Sie das passende vllm-0.8.5 Wheel aus der offiziellen Version herunter und installieren Sie es:
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
Hinweis: Laut Dokumentation können bestimmte Fehler im Zusammenhang mit vLLM und Transformers ignoriert werden.
Praktischer Workflow: Von Bild zu LLM-Input
Ein typischer Implementierungsablauf sieht so aus:
1. Eingabedateien sammeln
2. Bildauflösung und OCR-Modus auswählen
3. DeepSeek-OCR ausführen
4. Markdown oder strukturierte Ausgabe speichern
5. Ausgabe an ein LLM oder eine API-Pipeline übergeben
6. Ergebnis validieren und überwachen
Beispielhafte Projektstruktur:
ocr-pipeline/
├── input/
│ ├── invoice-001.png
│ └── contract-001.pdf
├── output/
│ ├── invoice-001.md
│ └── contract-001.md
├── scripts/
│ └── run_ocr.py
└── README.md
Für produktive Verarbeitung sollten Sie zusätzlich berücksichtigen:
- Dateigrößen begrenzen
- OCR-Modus pro Dokumenttyp festlegen
- Ergebnisse versionieren
- Fehlerfälle speichern
- Antwortzeiten messen
- Batch-Jobs von Echtzeit-Endpunkten trennen
Leistung und Benchmarking
DeepSeek-OCR ist auf hohen Durchsatz und hohe Genauigkeit ausgelegt.
Wichtige Kennzahlen aus dem ursprünglichen Material:
- Geschwindigkeit: bis zu 2500 Tokens/Sek. auf einer A100-40G GPU
- Benchmarks: starke Ergebnisse bei Fox und OmniDocBench
- Kompression: bis zu 50% weniger Tokens bei über 95% Extraktionsgenauigkeit
- Auflösungsskalierung: höhere Modi liefern mehr Details, benötigen aber mehr Tokens
Für die Praxis bedeutet das:
- Nutzen Sie Base als Startpunkt für die meisten Dokumente.
- Wechseln Sie zu Large, wenn kleine Schrift, Tabellen oder komplexe Layouts wichtig sind.
- Verwenden Sie Tiny oder Small, wenn Geschwindigkeit wichtiger ist als Detailtiefe.
- Testen Sie den „Gundam“-Modus für große oder sehr dichte Dokumente.
DeepSeek-OCR im Vergleich mit anderen OCR-Lösungen
| Funktion | DeepSeek-OCR | PaddleOCR | GOT-OCR2.0 | MinerU | Tesseract |
|---|---|---|---|---|---|
| LLM-Integration | Ja | Nein | Teilweise | Nein | Nein |
| Kontextbezogene Ausgabe | Ja | Nein | Teilweise | Nein | Nein |
| Dynamische Auflösung | Ja | Nein | Nein | Nein | Nein |
| Grounding-Unterstützung | Ja | Nein | Nein | Nein | Nein |
| Token-Kompression | Hoch | Mittel | Mittel | Niedrig | Niedrig |
| Markdown-Ausgabe | Ja | Nein | Nein | Nein | Nein |
DeepSeek-OCR ist besonders relevant, wenn OCR-Ergebnisse direkt in LLM-basierte Workflows integriert werden sollen. Klassische OCR-Tools können für einfache Textextraktion ausreichend sein, bieten aber meist weniger Kontextinformationen für nachgelagerte LLM-Aufgaben.
Warum Apidog für die DeepSeek-OCR-API-Integration nützlich ist
Wenn DeepSeek-OCR als API in eine Anwendung eingebunden wird, entstehen typische Engineering-Aufgaben:
- Endpunkte definieren
- Requests und Responses testen
- Beispiel-Payloads dokumentieren
- Mock-APIs für Frontend- oder Integrationstests bereitstellen
- Antwortzeiten und Fehler prüfen
- API-Sammlungen im Team teilen
Apidog kann dabei helfen, OCR-APIs während Entwicklung, Test und Integration zentral zu verwalten.
Beispiel für einen möglichen OCR-Request:
POST /ocr
Content-Type: multipart/form-data
file=@document.png
mode=base
output=markdown
Beispielhafte Antwortstruktur:
{
"filename": "document.png",
"mode": "base",
"output_format": "markdown",
"content": "# Dokumenttitel\n\nExtrahierter Inhalt...",
"metadata": {
"tokens": 256,
"processing_time_ms": 842
}
}
Mit solchen Beispielantworten können Sie in Apidog Tests, Dokumentation und Mocking für Ihre OCR-Pipeline vorbereiten.
Fazit
DeepSeek-OCR verbindet OCR, visuelle Kompression und LLM-orientierte Verarbeitung. Statt nur Rohtext aus Bildern zu extrahieren, liefert es kontextreichere Repräsentationen, die sich besser für Dokumentenautomatisierung, visuelle Analyse und LLM-Pipelines eignen.
Für Entwickler ist besonders wichtig:
- passenden Auflösungsmodus wählen
- OCR-Ausgabe strukturiert speichern
- API-Endpunkte sauber testen
- Performance und Fehlerfälle überwachen
- Ergebnisse für nachgelagerte LLM-Schritte optimieren
In Kombination mit API-Tools wie Apidog lässt sich DeepSeek-OCR einfacher in produktionsnahe Workflows integrieren.





Top comments (0)