Rihpig

Posted on Jun 23 • Originally published at apidog.com

DeepSeek-OCR: AI 및 API 워크플로우를 위한 획기적인 문맥 OCR

개발자와 AI 엔지니어는 대규모 언어 모델(LLM)에서 이미지, 스캔 문서, 차트 같은 시각 데이터를 텍스트 기반 워크플로로 연결해야 하는 경우가 많습니다. DeepSeek-OCR은 이 문제를 해결하기 위해 DeepSeek-AI가 공개한 “콘텍스트 광학 압축” 모델로, 복잡한 시각 정보를 LLM이 처리하기 쉬운 압축된 텍스트 토큰으로 변환합니다.

지금 Apidog를 사용해 보세요

2025년 10월에 출시된 DeepSeek-OCR은 문서 자동화, 이미지-텍스트 변환, 시각적 데이터 분석 파이프라인을 구축하는 팀에 유용합니다. LLM 중심 설계 덕분에 문서 구조와 콘텍스트를 유지하면서 계산 오버헤드를 줄이고, 대규모 워크로드에 적용할 수 있습니다.

콘텍스트 광학 압축이란 무엇인가요?

콘텍스트 광학 압축은 이미지를 LLM이 사용할 수 있는 정보 밀집 텍스트 토큰으로 압축하는 방식입니다. 기존 OCR이 주로 텍스트 추출에 집중한다면, DeepSeek-OCR은 레이아웃, 공간 관계, 문서 콘텍스트까지 함께 보존하는 것을 목표로 합니다.

실무에서는 다음과 같은 차이가 중요합니다.

문서 구조 유지: 제목, 본문, 표, 목록 등 계층 구조를 보존합니다.
해상도 모드 선택: 빠른 처리용 Tiny 모드부터 세부 정보가 필요한 Large 모드까지 선택할 수 있습니다.
공간 접지 지원: 이미지 내부의 특정 영역이나 요소를 참조할 수 있습니다.
LLM 친화적 출력: 추출 결과를 후속 프롬프트, 검색, 요약, QA 파이프라인에 연결하기 쉽습니다.

Tesseract 같은 기존 OCR 도구는 복잡한 레이아웃, 왜곡된 스캔, 다국어 문서에서 후처리가 많이 필요할 수 있습니다. DeepSeek-OCR은 신경망 기반 아키텍처를 사용해 텍스트뿐 아니라 문서의 시각적 콘텍스트까지 함께 다룹니다.

DeepSeek-OCR 작동 방식: 기술적 기본 사항

DeepSeek-OCR은 시각 데이터를 최소한의 유용한 토큰으로 압축하는 LLM 중심 비전 인코더로 볼 수 있습니다.

기본 워크플로는 다음과 같습니다.

이미지 분석
- 원본 이미지를 인코딩합니다.
- 텍스트, 레이아웃, 표, 그림 등을 식별합니다.
토큰 생성
- 시각적 특징을 압축된 표현으로 변환합니다.
- 제목, 본문, 표 같은 섹션 정보를 구분합니다.
동적 해상도 처리
- 밀도가 높거나 큰 문서는 여러 이미지 세그먼트를 결합합니다.
- “건담” 모드는 이러한 고해상도 또는 복잡한 문서 처리에 사용됩니다.
접지 태그 사용
- 예: <|ref|>xxxx<|/ref|>
- 이미지 내 특정 요소를 참조해야 하는 AR, 대화형 문서, 시각적 QA 시나리오에 활용할 수 있습니다.

지원되는 토큰 모드는 다음과 같습니다.

모드	해상도	토큰 수
Tiny	512×512 px	64 토큰
Small	640×640 px	100 토큰
Base	1024×1024 px	256 토큰
Large	1280×1280 px	400 토큰

실무에서는 다음 기준으로 모드를 선택하면 됩니다.

빠른 미리보기 또는 대량 처리: Tiny / Small
일반적인 문서 OCR: Base
표, 작은 글씨, 복잡한 레이아웃: Large
매우 큰 문서 또는 고밀도 이미지: 동적 “건담” 모드

DeepSeek-OCR 활용: 개발자를 위한 기능

DeepSeek-OCR은 AI 애플리케이션과 API 기반 문서 처리 워크플로에 맞춰 다음 기능을 제공합니다.

원시 해상도 유연성
- 처리 속도와 정확도 요구사항에 맞춰 모드를 선택할 수 있습니다.
동적 “건담” 모드
- 여러 세그먼트를 연결해 초고해상도 문서를 처리합니다.
마크다운 출력
- 문서를 구조화된 마크다운으로 변환합니다.
- 표, 목록, 제목 계층 구조를 후속 처리에 활용할 수 있습니다.
그림 구문 분석
- 차트, 그래프, 다이어그램에서 설명 또는 데이터를 추출하는 데 사용할 수 있습니다.
일반 이미지 캡션
- 접근성 기능이나 이미지 설명 자동화에 활용할 수 있습니다.
위치 참조
- 이미지 내 특정 요소에 대한 쿼리나 추출에 사용할 수 있습니다.
빠른 추론
- A100-40G GPU에서 최대 2500 토큰/초 성능을 달성합니다.
- vLLM 및 Transformers와 호환됩니다.
경량 배포
- 안전하고 확장 가능한 통합을 위해 최소한의 종속성을 지향합니다.

활용 예시는 다음과 같습니다.

금융 또는 법률 문서 자동 처리
시각적 질문 답변 시스템 구축
이미지 설명 기반 접근성 도구 개발
디지털 아카이빙용 배치 OCR API 파이프라인 구성
스캔 문서를 마크다운으로 변환한 뒤 LLM 요약 또는 검색 파이프라인에 연결

내부 작동 방식: DeepSeek-OCR 아키텍처

DeepSeek-OCR의 아키텍처는 효율적이고 콘텍스트 인식적인 OCR을 목표로 설계되었습니다.

주요 구성 요소는 다음과 같습니다.

이미지 전처리
- 입력 이미지의 크기를 조정하고 정규화합니다.
비전 트랜스포머 백본
- 이미지를 패치로 분할합니다.
- 각 패치를 임베딩으로 인코딩합니다.
압축 토큰화
- 멀티 헤드 어텐션과 피드포워드 네트워크를 사용해 시각적 콘텍스트를 간결한 토큰으로 합성합니다.
LLM 통합
- 비전 토큰을 텍스트 프롬프트 앞에 추가합니다.
- 콘텍스트 길이와 메모리 사용량을 줄이는 데 도움이 됩니다.
공간 접지
- 특수 토큰을 사용해 이미지 내 특정 좌표나 영역을 참조합니다.
최적화된 훈련
- 이미지-텍스트 쌍 데이터셋으로 미세 조정되어 압축과 정확도의 균형을 맞춥니다.

동적 모드에서는 여러 패스에서 임베딩을 연결해 다양한 크기의 문서를 처리할 때 일관성을 유지합니다.

설치 가이드: DeepSeek-OCR 시작하기

CUDA를 지원하는 Python 환경에서 DeepSeek-OCR을 설정할 수 있습니다. 아래는 기본 설치 흐름입니다.

1. Conda 환경 생성

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

2. 리포지토리 복제

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

3. PyTorch 및 종속성 설치

CUDA 11.8 환경 기준 예시는 다음과 같습니다.

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

4. requirements 설치

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

5. vLLM 설치

공식 릴리스에서 vLLM 0.8.5 wheel을 다운로드한 뒤 설치합니다.

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

문서에 명시된 것처럼 vLLM 및 Transformers 관련 일부 오류는 무시해도 됩니다.

성능 및 벤치마킹

DeepSeek-OCR은 높은 처리량과 정확도를 목표로 설계되었습니다.

속도
- A100-40G GPU에서 최대 2500 토큰/초
벤치마크
- Fox, OmniDocBench에서 OCR 정확도, 레이아웃 유지, 그림 구문 분석 성능을 제공합니다.
압축
- 95% 이상의 추출 정확도를 유지하면서 토큰을 50% 줄입니다.
해상도 스케일링
- 상위 모드는 더 많은 토큰을 사용해 더 세밀한 정보를 제공합니다.
- 대부분의 프로덕션 시나리오에서는 Base 모드가 속도와 품질의 균형점이 될 수 있습니다.

다른 OCR 솔루션과 DeepSeek-OCR 비교

기능	DeepSeek-OCR	PaddleOCR	GOT-OCR2.0	MinerU	Tesseract
LLM 통합	예	아니요	부분적	아니요	아니요
콘텍스트 출력	예	아니요	부분적	아니요	아니요
동적 해상도	예	아니요	아니요	아니요	아니요
접지 지원	예	아니요	아니요	아니요	아니요
토큰 압축	높음	보통	보통	낮음	낮음
마크다운 출력	예	아니요	아니요	아니요	아니요

DeepSeek-OCR은 LLM 호환성, 콘텍스트 유지, 시각적 토큰 압축에 초점을 맞춘 OCR 모델입니다. 따라서 단순 텍스트 추출보다 문서 이해, 요약, 검색, QA, API 기반 자동화에 더 적합한 구조를 제공합니다.

DeepSeek-OCR API 통합에 Apidog가 중요한 이유

DeepSeek-OCR을 실제 서비스에 연결하려면 모델 실행만으로는 충분하지 않습니다. API 엔드포인트를 정의하고, 요청/응답을 검증하고, 성능과 오류를 추적해야 합니다.

Apidog는 DeepSeek-OCR 기반 API 개발에서 다음 작업에 사용할 수 있습니다.

API 테스트
- OCR 엔드포인트에 이미지 파일 또는 문서 URL을 전달합니다.
- 응답 필드, 상태 코드, 에러 메시지를 검증합니다.
목킹
- 모델 서버가 준비되기 전에도 OCR API 응답을 시뮬레이션합니다.
- 프론트엔드 또는 다른 백엔드 서비스와 병렬로 개발할 수 있습니다.
자동화
- 반복적인 OCR 요청 테스트를 자동화합니다.
- 배치 처리, 실패 케이스, 큰 파일 업로드 같은 시나리오를 검증할 수 있습니다.
성능 모니터링
- 응답 시간과 오류를 추적해 병목을 찾습니다.
- 해상도 모드별 처리 시간 비교에도 활용할 수 있습니다.
협업
- 팀과 API 컬렉션을 공유합니다.
- 요청 스펙, 응답 예시, 테스트 케이스를 함께 관리할 수 있습니다.

예를 들어 DeepSeek-OCR을 API로 감싼다면 요청 구조는 다음처럼 설계할 수 있습니다.

POST /ocr
Content-Type: multipart/form-data

file=@invoice.png
mode=base
output=markdown

응답은 다음처럼 후속 LLM 파이프라인에 바로 전달할 수 있는 구조가 될 수 있습니다.

{
  "mode": "base",
  "output_format": "markdown",
  "content": "# Invoice\n\n| Item | Amount |\n| --- | --- |\n| API usage | $120 |",
  "tokens": 256
}

이런 형태로 API를 정의해두면 OCR 결과를 요약, 검색 인덱싱, 문서 검증, RAG 파이프라인에 연결하기 쉬워집니다.

결론

DeepSeek-OCR은 이미지와 문서를 LLM 기반 텍스트 워크플로에 연결하기 위한 OCR 모델입니다. 콘텍스트 광학 압축, 동적 해상도 처리, 마크다운 출력, 공간 접지 기능을 통해 단순 텍스트 추출을 넘어 문서 구조와 의미를 함께 다룰 수 있습니다.

프로덕션 환경에서는 DeepSeek-OCR 모델 실행뿐 아니라 API 테스트, 목킹, 자동화, 성능 모니터링도 함께 고려해야 합니다. Apidog 같은 도구를 함께 사용하면 DeepSeek-OCR 기반 API를 더 빠르게 검증하고 안정적으로 운영할 수 있습니다.

DEV Community