DEV Community

GuGuData
GuGuData

Posted on • Edited on

网页可读内容抽取 API 接口

网页可读内容抽取 API 接口

接口详情官网地址: https://www.gugudata.com/api/details/readability

网页可读内容抽取 API 智能提取文章关键元素信息,网络工具、文本处理等关键词场景常会用到,适合用于站点内容抽取与网页分析、SEO 检查与页面结构处理与网页自动化采集与结构化输出等业务场景,方便开发者直接在应用、脚本或数据流程中接入。

gugudata_api_cover

1. 产品功能

  • 智能提取网页可阅读内容;
  • 提供网页可阅读内容的 HTML 代码;
  • 支持传递网页 HTML 或网页 URL 参数;
  • 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
  • 秒级解析性能,支持高并发;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;

2. API 文档

接口地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/websitetools/readability?appkey=YOUR_APPKEY&html=YOUR_VALUE&url=YOUR_VALUE

数据预览: https://www.gugudata.com/preview/readability

接口测试: https://api.gugudata.com/websitetools/readability/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY
html string YOUR_VALUE 需要抽取的网页 HTML 内容,与参数 url 二选一
url string YOUR_VALUE 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题)

4. 返回参数

参数名 参数类型 备注
DataStatus.RequestParameter string 接口请求参数
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.Title string 文章标题
Data.Byline string 文章作者
Data.Dir string 文章文字方向
Data.Lang string 文章语言
Data.Content string 文章内容
Data.TextContent string 文章内容(不包含 HTML 标签,按段落分割)
Data.Length int 文章长度
Data.Excerpt string 文章摘要
Data.SiteName string 网站名称
Data.PublishedTime string[] 文章发布时间

5. 错误码说明

状态码 错误说明 备注
200 正常返回 -
400 参数错误 -
429 请求频率受限 每秒请求不能超过 100 次
403 账号欠费 请及时关注订单到期短信提醒
402 APPKEY 错误 请检查传递的 APPKEY 是否为开发者中心获取到的值
500 接口响应错误 -

6. 适用场景

  • 适合用于站点内容抽取与网页分析,快速补齐产品侧需要的 网页可读内容抽取 数据能力。
  • 适合用于SEO 检查与页面结构处理,减少手工整理、清洗与重复开发成本。
  • 适合用于网页自动化采集与结构化输出,将接口结果直接接入后台系统、数据任务或内容处理流程。

7. 相关接口

Top comments (0)