DEV Community

GuGuData
GuGuData

Posted on • Edited on

PDF 解析格式化输出 API 接口

PDF 解析格式化输出 API 接口

接口详情官网地址: https://www.gugudata.com/api/details/pdf2format

PDF 解析格式化输出 API 支持输出 TEXT HTML XML TAG,文件处理、PDF等关键词场景常会用到,适合用于文档识别与格式转换、批量归档与自动化录入与PDF、图片与网页内容处理等业务场景,方便开发者直接在应用、脚本或数据流程中接入。

gugudata_api_cover

1. 产品功能

  • 通用的识别接口, 支持标准 PDF 文件解析;
  • 多种格式输出,支持 TEXT HTML XML TAG;
  • HTML 包含完美排版格式;
  • 基于机器学习不断提高的识别率;
  • 1M 文件毫秒级识别性能;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;

2. API 文档

接口地址: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}?appkey=YOUR_APPKEY&type=YOUR_VALUE

数据预览: https://www.gugudata.com/preview/pdf2format

接口测试: https://api.gugudata.com/imagerecognition/pdf2format/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY
type string YOUR_VALUE 定义输出格式,可选 text\
pdffile file YOUR_FILE 文件格式参数,待转换的 PDF 文件

4. 返回参数

参数名 参数类型 备注
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.Data string 接口解析 PDF 返回数据,格式由 type 参数决定

5. 错误码说明

状态码 错误说明 备注
100 正常返回 -
101 参数错误 -
102 请求频率受限 每秒请求不能超过 100 次
103 账号欠费 -
104 APPKEY 错误 请检查传递的 APPKEY 是否为开发者中心获取到的值
110 接口响应错误 -

6. 适用场景

  • 适合用于文档识别与格式转换,快速补齐产品侧需要的 PDF 解析格式化输出 数据能力。
  • 适合用于批量归档与自动化录入,减少手工整理、清洗与重复开发成本。
  • 适合用于PDF、图片与网页内容处理,将接口结果直接接入后台系统、数据任务或内容处理流程。

7. 相关接口

Top comments (0)