Sebastian Petrus

Posted on Jun 23 • Originally published at apidog.com

DeepSeek-OCR: Đột phá OCR ngữ cảnh cho quy trình làm việc AI và API

Các nhà phát triển và kỹ sư AI thường phải nối dữ liệu hình ảnh như ảnh, bản scan, tài liệu PDF hoặc biểu đồ vào pipeline xử lý văn bản của LLM. DeepSeek-OCR giải quyết bài toán này bằng “nén quang học theo ngữ cảnh”: chuyển thông tin hình ảnh phức tạp thành các token văn bản ngắn gọn, giàu ngữ cảnh để LLM xử lý hiệu quả hơn.

Dùng thử Apidog ngay hôm nay

Ra mắt vào tháng 10 năm 2025, DeepSeek-OCR hướng đến các use case như tự động hóa tài liệu, chuyển đổi hình ảnh sang văn bản, phân tích dữ liệu hình ảnh và tích hợp OCR vào hệ thống AI. Điểm đáng chú ý là thiết kế lấy LLM làm trung tâm: giảm số token thị giác cần đưa vào mô hình, giữ ngữ cảnh tài liệu và hỗ trợ xử lý ở quy mô lớn.

Nén quang học theo ngữ cảnh là gì?

Nén quang học theo ngữ cảnh là quá trình biến đổi hình ảnh thành các token văn bản nhỏ gọn nhưng vẫn giữ thông tin quan trọng cho LLM.

Khác với OCR truyền thống, vốn thường chỉ trích xuất text thuần, DeepSeek-OCR tập trung giữ thêm:

Cấu trúc tài liệu
Tiêu đề và phân cấp nội dung
Bảng, danh sách, đoạn văn
Quan hệ không gian giữa các thành phần
Tham chiếu vị trí trong hình ảnh

Khi nào nên dùng cách tiếp cận này?

Bạn nên cân nhắc DeepSeek-OCR nếu pipeline của bạn cần nhiều hơn plain text, ví dụ:

Trích xuất bảng từ invoice, hợp đồng, báo cáo
Chuyển tài liệu scan sang Markdown có cấu trúc
Xây dựng hệ thống hỏi đáp trên ảnh hoặc tài liệu
Kết hợp OCR với LLM để phân tích layout, biểu đồ hoặc nội dung đa ngôn ngữ
Cần tham chiếu vị trí cụ thể trong ảnh, ví dụ vùng chữ ký, tiêu đề, bảng hoặc ô dữ liệu

Các công cụ OCR truyền thống như Tesseract có thể hoạt động tốt với văn bản rõ ràng, bố cục đơn giản. Tuy nhiên, với tài liệu phức tạp, bản scan méo, ghi chú viết tay hoặc nội dung đa ngôn ngữ, DeepSeek-OCR tận dụng kiến trúc mạng nơ-ron sâu để giữ lại ngữ cảnh tốt hơn.

Cách DeepSeek-OCR hoạt động

DeepSeek-OCR sử dụng bộ mã hóa thị giác được thiết kế cho LLM. Thay vì đưa toàn bộ thông tin ảnh vào mô hình dưới dạng dữ liệu lớn, nó nén ảnh thành một tập token nhỏ nhưng có tính đại diện cao.

Quy trình tổng quát:

Phân tích hình ảnh

Mô hình nhận ảnh ở độ phân giải đầu vào, phát hiện văn bản, bố cục, bảng và hình minh họa.
Tạo token thị giác

Các đặc trưng hình ảnh được chuyển thành biểu diễn nén, có thể phân biệt tiêu đề, nội dung, bảng hoặc vùng đặc biệt.
Chọn độ phân giải động

Với tài liệu dày đặc hoặc quá khổ, chế độ “Gundam” có thể kết hợp nhiều phân đoạn hình ảnh.
Gắn thẻ định vị

Các tag như:

   <|ref|>xxxx<|/ref|>

được dùng để tham chiếu đến vị trí cụ thể trong ảnh. Cách này hữu ích cho tài liệu tương tác, AR hoặc các workflow cần truy xuất vùng chính xác.

Các chế độ token

Chế độ	Độ phân giải	Số token
Tiny	512×512 px	64
Small	640×640 px	100
Base	1024×1024 px	256
Large	1280×1280 px	400

Cách chọn nhanh:

Dùng Tiny hoặc Small cho preview, batch OCR nhanh hoặc tài liệu đơn giản.
Dùng Base cho phần lớn workflow production cần cân bằng giữa tốc độ và chi tiết.
Dùng Large khi tài liệu có nhiều chữ nhỏ, bảng dày hoặc bố cục phức tạp.

Tính năng thực tế cho nhà phát triển

DeepSeek-OCR hữu ích nhất khi được đưa vào pipeline AI/API. Các tính năng chính gồm:

Độ phân giải gốc linh hoạt: chọn chế độ phù hợp theo chi phí, tốc độ và độ chi tiết.
Chế độ “Gundam” động: xử lý tài liệu độ phân giải rất cao bằng cách ghép nhiều phân đoạn.
Đầu ra Markdown: chuyển tài liệu thành Markdown có cấu trúc, giữ bảng, danh sách và phân cấp.
Phân tích hình ảnh: trích xuất dữ liệu hoặc mô tả từ biểu đồ, đồ thị.
Tạo chú thích hình ảnh: tạo mô tả giàu ngữ cảnh để hỗ trợ accessibility.
Tham chiếu vị trí: truy vấn hoặc trích xuất dữ liệu từ vùng cụ thể trong hình ảnh.
Suy luận nhanh: đạt tới 2500 token/giây trên GPU A100-40G, tương thích vLLM và Transformers.
Triển khai nhẹ: phụ thuộc tối thiểu để tích hợp an toàn và có khả năng mở rộng.

Use case mẫu

Bạn có thể dùng DeepSeek-OCR trong các hệ thống như:

Pipeline xử lý invoice, hợp đồng hoặc báo cáo tài chính
Hệ thống hỏi đáp trên tài liệu scan
Công cụ trợ năng tạo mô tả hình ảnh
Batch OCR qua API cho lưu trữ tài liệu số
Workflow trích xuất bảng từ tài liệu pháp lý hoặc kỹ thuật

Bên trong kiến trúc DeepSeek-OCR

Kiến trúc của DeepSeek-OCR tập trung vào OCR hiệu quả, chính xác và nhận biết ngữ cảnh.

Các thành phần chính:

Tiền xử lý hình ảnh

Resize và chuẩn hóa ảnh đầu vào.
Vision Transformer backbone

Chia ảnh thành các patch, sau đó mã hóa mỗi patch thành embedding.
Token hóa nén

Multi-head attention và feed-forward networks tổng hợp ngữ cảnh hình ảnh thành các token ngắn gọn.
Tích hợp LLM

Token thị giác được thêm vào trước text prompt, giúp giảm độ dài context và bộ nhớ sử dụng.
Spatial grounding

Token đặc biệt kích hoạt module ánh xạ truy vấn đến tọa độ hoặc vùng cụ thể trong ảnh.
Đào tạo tối ưu

Mô hình được tinh chỉnh trên các bộ dữ liệu ảnh-văn bản ghép đôi, cân bằng giữa tỷ lệ nén và độ chính xác.

Với chế độ động, DeepSeek-OCR có thể nối embedding từ nhiều lượt xử lý để giữ tính nhất quán khi tài liệu có kích thước khác nhau.

Cài đặt DeepSeek-OCR

Bạn nên thiết lập DeepSeek-OCR trong môi trường Python riêng, có CUDA nếu muốn chạy GPU.

1. Tạo môi trường Conda

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

2. Clone repository

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

3. Cài PyTorch và các phụ thuộc CUDA

Ví dụ với CUDA 11.8:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

4. Cài requirements

pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

5. Cài vLLM

Tải file wheel vLLM-0.8.5 từ bản phát hành chính thức, sau đó cài:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

Lưu ý: Nếu gặp lỗi liên quan đến vLLM hoặc Transformers, hãy đối chiếu với hướng dẫn trong tài liệu của repository.

Gợi ý tích hợp vào pipeline API

Một flow triển khai thực tế có thể như sau:

Client upload ảnh hoặc tài liệu.
Backend lưu file tạm thời hoặc object storage.
Worker gọi DeepSeek-OCR để trích xuất Markdown/token.
Kết quả được đưa vào LLM để phân tích, tóm tắt hoặc trả lời câu hỏi.
API trả về Markdown, JSON hoặc kết quả đã chuẩn hóa.

Ví dụ response JSON có thể được thiết kế như sau:

{
  "document_id": "doc_123",
  "mode": "base",
  "output_format": "markdown",
  "content": "# Invoice\n\n| Item | Price |\n|---|---:|\n| API usage | 120 |\n",
  "references": [
    {
      "label": "invoice_total",
      "ref": "<|ref|>total_amount<|/ref|>"
    }
  ]
}

Nếu bạn cần kiểm thử endpoint OCR, hãy tách rõ các trường:

mode: tiny, small, base hoặc large
output_format: markdown hoặc structured JSON
image_url hoặc file
grounding: bật/tắt tham chiếu vị trí
metadata: thông tin tài liệu, người dùng hoặc batch ID

Hiệu suất và đánh giá chuẩn

DeepSeek-OCR được thiết kế cho thông lượng cao và độ chính xác tốt trong các tác vụ OCR giàu ngữ cảnh.

Các điểm chính:

Tốc độ: lên đến 2500 token/giây trên GPU A100-40G.
Benchmark Fox và OmniDocBench: nổi bật về độ chính xác OCR, giữ bố cục và phân tích hình minh họa.
Nén token: giảm 50% token trong khi vẫn duy trì độ chính xác trích xuất trên 95%.
Mở rộng độ phân giải: chế độ cao hơn cho chi tiết tốt hơn nhưng dùng nhiều token hơn.

Trong production, bạn có thể bắt đầu với Base vì đây là mức cân bằng tốt cho đa số tài liệu. Sau đó benchmark lại theo dữ liệu thật của bạn:

tiny  -> latency thấp, chi phí thấp, phù hợp preview
small -> cân bằng nhẹ cho tài liệu đơn giản
base  -> lựa chọn mặc định cho production
large -> dùng khi cần độ chi tiết cao

So sánh DeepSeek-OCR với các giải pháp OCR khác

Tính năng	DeepSeek-OCR	PaddleOCR	GOT-OCR2.0	MinerU	Tesseract
Tích hợp LLM	Có	Không	Một phần	Không	Không
Đầu ra theo ngữ cảnh	Có	Không	Một phần	Không	Không
Độ phân giải động	Có	Không	Không	Không	Không
Hỗ trợ định vị	Có	Không	Không	Không	Không
Nén token	Cao	Trung bình	Trung bình	Thấp	Thấp
Đầu ra Markdown	Có	Không	Không	Không	Không

DeepSeek-OCR nổi bật ở các workflow cần đưa kết quả OCR vào LLM: giữ ngữ cảnh, giảm token và hỗ trợ output có cấu trúc. Với các tác vụ OCR đơn giản, công cụ truyền thống vẫn có thể đủ. Nhưng khi tài liệu có layout phức tạp hoặc cần phân tích tiếp bằng LLM, DeepSeek-OCR phù hợp hơn.

Tại sao Apidog hữu ích khi tích hợp API DeepSeek-OCR

Khi đưa DeepSeek-OCR vào dự án thực tế, phần khó không chỉ là chạy model. Bạn còn phải quản lý endpoint, payload, response, mock API và kiểm thử lỗi.

Apidog giúp nhóm phát triển API DeepSeek-OCR ở các bước:

Kiểm thử API nhanh

Gửi request upload ảnh, kiểm tra payload và xác thực response OCR theo thời gian thực.
Mock API cho frontend hoặc QA

Mô phỏng response OCR khi backend/model chưa sẵn sàng hoặc môi trường GPU chưa ổn định.
Tự động hóa kiểm thử

Tạo test case cho các chế độ tiny, small, base, large và nhiều loại tài liệu khác nhau.
Theo dõi hiệu suất

Kiểm tra latency, lỗi response và độ ổn định endpoint trong quá trình tích hợp.
Cộng tác nhóm

Chia sẻ collection API, schema response và ví dụ request để backend, frontend và QA làm việc thống nhất.

Ví dụ checklist khi test API OCR:

[ ] Upload ảnh hợp lệ
[ ] Upload ảnh quá lớn
[ ] File không phải ảnh
[ ] Chế độ tiny/small/base/large
[ ] Output Markdown có bảng
[ ] Response có grounding ref
[ ] Timeout hoặc lỗi GPU
[ ] Batch processing nhiều file

Kết luận

DeepSeek-OCR mở rộng OCR từ việc trích xuất text thuần sang xử lý tài liệu giàu ngữ cảnh cho LLM. Với nén token, đầu ra Markdown, chế độ độ phân giải linh hoạt và grounding, nó phù hợp cho các hệ thống AI cần hiểu hình ảnh, tài liệu scan, bảng và layout phức tạp.

Nếu bạn triển khai DeepSeek-OCR dưới dạng API, hãy chuẩn hóa request/response sớm, benchmark theo dữ liệu thật và dùng công cụ như Apidog để kiểm thử, mock và cộng tác trong toàn bộ vòng đời tích hợp.

DEV Community