Các nhà phát triển và kỹ sư AI thường phải nối dữ liệu hình ảnh như ảnh, bản scan, tài liệu PDF hoặc biểu đồ vào pipeline xử lý văn bản của LLM. DeepSeek-OCR giải quyết bài toán này bằng “nén quang học theo ngữ cảnh”: chuyển thông tin hình ảnh phức tạp thành các token văn bản ngắn gọn, giàu ngữ cảnh để LLM xử lý hiệu quả hơn.
Ra mắt vào tháng 10 năm 2025, DeepSeek-OCR hướng đến các use case như tự động hóa tài liệu, chuyển đổi hình ảnh sang văn bản, phân tích dữ liệu hình ảnh và tích hợp OCR vào hệ thống AI. Điểm đáng chú ý là thiết kế lấy LLM làm trung tâm: giảm số token thị giác cần đưa vào mô hình, giữ ngữ cảnh tài liệu và hỗ trợ xử lý ở quy mô lớn.
Nén quang học theo ngữ cảnh là gì?
Nén quang học theo ngữ cảnh là quá trình biến đổi hình ảnh thành các token văn bản nhỏ gọn nhưng vẫn giữ thông tin quan trọng cho LLM.
Khác với OCR truyền thống, vốn thường chỉ trích xuất text thuần, DeepSeek-OCR tập trung giữ thêm:
- Cấu trúc tài liệu
- Tiêu đề và phân cấp nội dung
- Bảng, danh sách, đoạn văn
- Quan hệ không gian giữa các thành phần
- Tham chiếu vị trí trong hình ảnh
Khi nào nên dùng cách tiếp cận này?
Bạn nên cân nhắc DeepSeek-OCR nếu pipeline của bạn cần nhiều hơn plain text, ví dụ:
- Trích xuất bảng từ invoice, hợp đồng, báo cáo
- Chuyển tài liệu scan sang Markdown có cấu trúc
- Xây dựng hệ thống hỏi đáp trên ảnh hoặc tài liệu
- Kết hợp OCR với LLM để phân tích layout, biểu đồ hoặc nội dung đa ngôn ngữ
- Cần tham chiếu vị trí cụ thể trong ảnh, ví dụ vùng chữ ký, tiêu đề, bảng hoặc ô dữ liệu
Các công cụ OCR truyền thống như Tesseract có thể hoạt động tốt với văn bản rõ ràng, bố cục đơn giản. Tuy nhiên, với tài liệu phức tạp, bản scan méo, ghi chú viết tay hoặc nội dung đa ngôn ngữ, DeepSeek-OCR tận dụng kiến trúc mạng nơ-ron sâu để giữ lại ngữ cảnh tốt hơn.
Cách DeepSeek-OCR hoạt động
DeepSeek-OCR sử dụng bộ mã hóa thị giác được thiết kế cho LLM. Thay vì đưa toàn bộ thông tin ảnh vào mô hình dưới dạng dữ liệu lớn, nó nén ảnh thành một tập token nhỏ nhưng có tính đại diện cao.
Quy trình tổng quát:
Phân tích hình ảnh
Mô hình nhận ảnh ở độ phân giải đầu vào, phát hiện văn bản, bố cục, bảng và hình minh họa.Tạo token thị giác
Các đặc trưng hình ảnh được chuyển thành biểu diễn nén, có thể phân biệt tiêu đề, nội dung, bảng hoặc vùng đặc biệt.Chọn độ phân giải động
Với tài liệu dày đặc hoặc quá khổ, chế độ “Gundam” có thể kết hợp nhiều phân đoạn hình ảnh.Gắn thẻ định vị
Các tag như:
<|ref|>xxxx<|/ref|>
được dùng để tham chiếu đến vị trí cụ thể trong ảnh. Cách này hữu ích cho tài liệu tương tác, AR hoặc các workflow cần truy xuất vùng chính xác.
Các chế độ token
| Chế độ | Độ phân giải | Số token |
|---|---|---|
| Tiny | 512×512 px | 64 |
| Small | 640×640 px | 100 |
| Base | 1024×1024 px | 256 |
| Large | 1280×1280 px | 400 |
Cách chọn nhanh:
- Dùng Tiny hoặc Small cho preview, batch OCR nhanh hoặc tài liệu đơn giản.
- Dùng Base cho phần lớn workflow production cần cân bằng giữa tốc độ và chi tiết.
- Dùng Large khi tài liệu có nhiều chữ nhỏ, bảng dày hoặc bố cục phức tạp.
Tính năng thực tế cho nhà phát triển
DeepSeek-OCR hữu ích nhất khi được đưa vào pipeline AI/API. Các tính năng chính gồm:
- Độ phân giải gốc linh hoạt: chọn chế độ phù hợp theo chi phí, tốc độ và độ chi tiết.
- Chế độ “Gundam” động: xử lý tài liệu độ phân giải rất cao bằng cách ghép nhiều phân đoạn.
- Đầu ra Markdown: chuyển tài liệu thành Markdown có cấu trúc, giữ bảng, danh sách và phân cấp.
- Phân tích hình ảnh: trích xuất dữ liệu hoặc mô tả từ biểu đồ, đồ thị.
- Tạo chú thích hình ảnh: tạo mô tả giàu ngữ cảnh để hỗ trợ accessibility.
- Tham chiếu vị trí: truy vấn hoặc trích xuất dữ liệu từ vùng cụ thể trong hình ảnh.
- Suy luận nhanh: đạt tới 2500 token/giây trên GPU A100-40G, tương thích vLLM và Transformers.
- Triển khai nhẹ: phụ thuộc tối thiểu để tích hợp an toàn và có khả năng mở rộng.
Use case mẫu
Bạn có thể dùng DeepSeek-OCR trong các hệ thống như:
- Pipeline xử lý invoice, hợp đồng hoặc báo cáo tài chính
- Hệ thống hỏi đáp trên tài liệu scan
- Công cụ trợ năng tạo mô tả hình ảnh
- Batch OCR qua API cho lưu trữ tài liệu số
- Workflow trích xuất bảng từ tài liệu pháp lý hoặc kỹ thuật
Bên trong kiến trúc DeepSeek-OCR
Kiến trúc của DeepSeek-OCR tập trung vào OCR hiệu quả, chính xác và nhận biết ngữ cảnh.
Các thành phần chính:
Tiền xử lý hình ảnh
Resize và chuẩn hóa ảnh đầu vào.Vision Transformer backbone
Chia ảnh thành các patch, sau đó mã hóa mỗi patch thành embedding.Token hóa nén
Multi-head attention và feed-forward networks tổng hợp ngữ cảnh hình ảnh thành các token ngắn gọn.Tích hợp LLM
Token thị giác được thêm vào trước text prompt, giúp giảm độ dài context và bộ nhớ sử dụng.Spatial grounding
Token đặc biệt kích hoạt module ánh xạ truy vấn đến tọa độ hoặc vùng cụ thể trong ảnh.Đào tạo tối ưu
Mô hình được tinh chỉnh trên các bộ dữ liệu ảnh-văn bản ghép đôi, cân bằng giữa tỷ lệ nén và độ chính xác.
Với chế độ động, DeepSeek-OCR có thể nối embedding từ nhiều lượt xử lý để giữ tính nhất quán khi tài liệu có kích thước khác nhau.
Cài đặt DeepSeek-OCR
Bạn nên thiết lập DeepSeek-OCR trong môi trường Python riêng, có CUDA nếu muốn chạy GPU.
1. Tạo môi trường Conda
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
2. Clone repository
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
3. Cài PyTorch và các phụ thuộc CUDA
Ví dụ với CUDA 11.8:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
4. Cài requirements
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
5. Cài vLLM
Tải file wheel vLLM-0.8.5 từ bản phát hành chính thức, sau đó cài:
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
Lưu ý: Nếu gặp lỗi liên quan đến vLLM hoặc Transformers, hãy đối chiếu với hướng dẫn trong tài liệu của repository.
Gợi ý tích hợp vào pipeline API
Một flow triển khai thực tế có thể như sau:
- Client upload ảnh hoặc tài liệu.
- Backend lưu file tạm thời hoặc object storage.
- Worker gọi DeepSeek-OCR để trích xuất Markdown/token.
- Kết quả được đưa vào LLM để phân tích, tóm tắt hoặc trả lời câu hỏi.
- API trả về Markdown, JSON hoặc kết quả đã chuẩn hóa.
Ví dụ response JSON có thể được thiết kế như sau:
{
"document_id": "doc_123",
"mode": "base",
"output_format": "markdown",
"content": "# Invoice\n\n| Item | Price |\n|---|---:|\n| API usage | 120 |\n",
"references": [
{
"label": "invoice_total",
"ref": "<|ref|>total_amount<|/ref|>"
}
]
}
Nếu bạn cần kiểm thử endpoint OCR, hãy tách rõ các trường:
-
mode: tiny, small, base hoặc large -
output_format: markdown hoặc structured JSON -
image_urlhoặcfile -
grounding: bật/tắt tham chiếu vị trí -
metadata: thông tin tài liệu, người dùng hoặc batch ID
Hiệu suất và đánh giá chuẩn
DeepSeek-OCR được thiết kế cho thông lượng cao và độ chính xác tốt trong các tác vụ OCR giàu ngữ cảnh.
Các điểm chính:
- Tốc độ: lên đến 2500 token/giây trên GPU A100-40G.
- Benchmark Fox và OmniDocBench: nổi bật về độ chính xác OCR, giữ bố cục và phân tích hình minh họa.
- Nén token: giảm 50% token trong khi vẫn duy trì độ chính xác trích xuất trên 95%.
- Mở rộng độ phân giải: chế độ cao hơn cho chi tiết tốt hơn nhưng dùng nhiều token hơn.
Trong production, bạn có thể bắt đầu với Base vì đây là mức cân bằng tốt cho đa số tài liệu. Sau đó benchmark lại theo dữ liệu thật của bạn:
tiny -> latency thấp, chi phí thấp, phù hợp preview
small -> cân bằng nhẹ cho tài liệu đơn giản
base -> lựa chọn mặc định cho production
large -> dùng khi cần độ chi tiết cao
So sánh DeepSeek-OCR với các giải pháp OCR khác
| Tính năng | DeepSeek-OCR | PaddleOCR | GOT-OCR2.0 | MinerU | Tesseract |
|---|---|---|---|---|---|
| Tích hợp LLM | Có | Không | Một phần | Không | Không |
| Đầu ra theo ngữ cảnh | Có | Không | Một phần | Không | Không |
| Độ phân giải động | Có | Không | Không | Không | Không |
| Hỗ trợ định vị | Có | Không | Không | Không | Không |
| Nén token | Cao | Trung bình | Trung bình | Thấp | Thấp |
| Đầu ra Markdown | Có | Không | Không | Không | Không |
DeepSeek-OCR nổi bật ở các workflow cần đưa kết quả OCR vào LLM: giữ ngữ cảnh, giảm token và hỗ trợ output có cấu trúc. Với các tác vụ OCR đơn giản, công cụ truyền thống vẫn có thể đủ. Nhưng khi tài liệu có layout phức tạp hoặc cần phân tích tiếp bằng LLM, DeepSeek-OCR phù hợp hơn.
Tại sao Apidog hữu ích khi tích hợp API DeepSeek-OCR
Khi đưa DeepSeek-OCR vào dự án thực tế, phần khó không chỉ là chạy model. Bạn còn phải quản lý endpoint, payload, response, mock API và kiểm thử lỗi.
Apidog giúp nhóm phát triển API DeepSeek-OCR ở các bước:
Kiểm thử API nhanh
Gửi request upload ảnh, kiểm tra payload và xác thực response OCR theo thời gian thực.Mock API cho frontend hoặc QA
Mô phỏng response OCR khi backend/model chưa sẵn sàng hoặc môi trường GPU chưa ổn định.Tự động hóa kiểm thử
Tạo test case cho các chế độtiny,small,base,largevà nhiều loại tài liệu khác nhau.Theo dõi hiệu suất
Kiểm tra latency, lỗi response và độ ổn định endpoint trong quá trình tích hợp.Cộng tác nhóm
Chia sẻ collection API, schema response và ví dụ request để backend, frontend và QA làm việc thống nhất.
Ví dụ checklist khi test API OCR:
[ ] Upload ảnh hợp lệ
[ ] Upload ảnh quá lớn
[ ] File không phải ảnh
[ ] Chế độ tiny/small/base/large
[ ] Output Markdown có bảng
[ ] Response có grounding ref
[ ] Timeout hoặc lỗi GPU
[ ] Batch processing nhiều file
Kết luận
DeepSeek-OCR mở rộng OCR từ việc trích xuất text thuần sang xử lý tài liệu giàu ngữ cảnh cho LLM. Với nén token, đầu ra Markdown, chế độ độ phân giải linh hoạt và grounding, nó phù hợp cho các hệ thống AI cần hiểu hình ảnh, tài liệu scan, bảng và layout phức tạp.
Nếu bạn triển khai DeepSeek-OCR dưới dạng API, hãy chuẩn hóa request/response sớm, benchmark theo dữ liệu thật và dùng công cụ như Apidog để kiểm thử, mock và cộng tác trong toàn bộ vòng đời tích hợp.





Top comments (0)