
DeepSeek-OCR-2 是 DeepSeek(深度求索)推出的第二代开源文档理解与 OCR(光学字符识别)模型。
相比于传统的 OCR 工具,它更像是一个专门针对文档图像的“视觉语言模型”,旨在解决复杂排版、长文档和多模态元素(如图表、公式)的解析问题。
不过根据在OminiDocBench V1.5上的评测,DeepSeek-OCR-2相比DeepSeek-OCR 1代虽然有所提升(综合提升3.7%),但是在大部分任务上仍不及PaddleOCR-VL,这是2025年百度团队发布的最新的ocr模型
LightonAI团队在几天前也发布了LightOnOCR-2模型,据称在OlmOCR基准测试中超过PaddleOCR-VL取得SOTA,大小只有1B,推理运行速度是PaddleOCR-VL的两倍,可以一试
以下是该项目的核心总结:
1. 核心定位:下一代文档智能
DeepSeek-OCR-2 不仅仅是识别文字,它的目标是全文档结构化理解。它能够将图片形式的文档直接转换为结构清晰的 Markdown 或 JSON 格式,保留排版逻辑。
- Slogan: "Visual Causal Flow" (视觉因果流) —— 旨在探索更像人类的视觉编码方式。
- 主要改进: 相比第一代主要强调的“视觉Token压缩”,第二代在视觉编码的逻辑性和连贯性上做了优化,使其更符合人类阅读和理解文档的因果逻辑。
2. 核心技术架构
该模型采用了独特的两阶段架构,专门针对 LLM 的文档理解进行了优化:
- Stage 1:视觉编码与压缩 (Vision Encoding)
- 使用混合视觉编码器(通常结合 SAM、CLIP 等技术)捕捉文档细节。
- 关键特性:高压缩率。它能将高分辨率的文档图像(如 1024x1024)压缩为数量极少、语义极高的“视觉 Token”(例如仅几百个 Token)。这使得它能以极低的算力成本处理长文档。
- Stage 2:MoE 解码 (Mixture-of-Experts Decoder)
- 后端连接一个基于 MoE(混合专家)架构的语言模型(通常是 DeepSeek-V3/VL 的轻量化版本或专用版本),将视觉 Token 解码为文本、HTML 或 Markdown。
3. 主要功能与优势
- 复杂排版还原: 能够精准识别并还原多栏排版、表格(Table)、图表(Chart)和数学公式(LaTeX 格式)。
- 结构化输出: 直接输出 Markdown、HTML 或 JSON,方便后续 RAG(检索增强生成)或数据入库使用。
- 多语言支持: 覆盖 100+ 种语言,包括手写体识别。
- 极高的吞吐量: 得益于视觉 Token 的高压缩比,其推理速度非常快(官方数据曾提及单卡 A100 可达 20万页/天级别的吞吐量),非常适合大规模文档处理。
4. 部署与使用
- 开源协议: 允许研究与商用(需遵循 MIT 或 DeepSeek Model License)。
- 生态支持:
- 官方支持 vLLM 加速推理。
- 提供了 HuggingFace Transformers 的原生支持。
- 提供了针对 PDF 和图片流式处理的 Python 脚本(
run_dpsk_ocr2_pdf.py等)。
5. 总结:为什么要用它?
如果你需要处理的不仅仅是简单的纯文本识别,而是需要理解文档结构(比如把一份复杂的 PDF 财报转换成干净的 Markdown,或者提取论文中的公式和图表),DeepSeek-OCR-2 是目前开源界最强的方案之一。它在保持高精度的同时,极大地降低了 Token 的消耗,比直接使用通用的多模态大模型(如 GPT-4o 或 Claude 3.5 Sonnet)处理文档要经济高效得多。
参考:


Top comments (0)