网页可读内容抽取 API 接口
接口详情官网地址: https://www.gugudata.com/api/details/readability
网页可读内容抽取 API 智能提取文章关键元素信息,网络工具、文本处理等关键词场景常会用到,适合用于站点内容抽取与网页分析、SEO 检查与页面结构处理与网页自动化采集与结构化输出等业务场景,方便开发者直接在应用、脚本或数据流程中接入。
1. 产品功能
- 智能提取网页可阅读内容;
- 提供网页可阅读内容的 HTML 代码;
- 支持传递网页 HTML 或网页 URL 参数;
- 支持多种元素信息抽取,包括文章标题、作者、文字方向、语言、内容、内容(不包含 HTML 标签,按段落分割)、文章长度、文章摘要、网站名称、文章发布时间;
- 秒级解析性能,支持高并发;
- 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
- 全面兼容 Apple ATS;
- 全国多节点 CDN 部署;
- 接口极速响应,多台服务器构建 API 接口负载均衡;
2. API 文档
接口地址: https://api.gugudata.com/websitetools/readability
返回格式: application/json; charset=utf-8
请求方式: POST
请求协议: HTTPS
请求示例: https://api.gugudata.com/websitetools/readability?appkey=YOUR_APPKEY&html=YOUR_VALUE&url=YOUR_VALUE
数据预览: https://www.gugudata.com/preview/readability
接口测试: https://api.gugudata.com/websitetools/readability/demo
3. 请求参数
| 参数名 | 参数类型 | 是否必须 | 默认值 | 备注 |
|---|---|---|---|---|
| appkey | string | 是 | YOUR_APPKEY | 付费后获取的 APPKEY |
| html | string | 否 | YOUR_VALUE | 需要抽取的网页 HTML 内容,与参数 url 二选一 |
| url | string | 否 | YOUR_VALUE | 需要抽取的网页 URL 地址,与参数 html 二选一。(我们不处理因源站反爬而不能正常请求网页内容进行后续处理的问题) |
4. 返回参数
| 参数名 | 参数类型 | 备注 |
|---|---|---|
| DataStatus.RequestParameter | string | 接口请求参数 |
| DataStatus.StatusCode | int | 接口返回状态码 |
| DataStatus.StatusDescription | string | 接口返回状态说明 |
| DataStatus.ResponseDateTime | string | 接口数据返回时间 |
| DataStatus.DataTotalCount | int | 此条件下的总数据量,一般用于分页计算 |
| Data.Title | string | 文章标题 |
| Data.Byline | string | 文章作者 |
| Data.Dir | string | 文章文字方向 |
| Data.Lang | string | 文章语言 |
| Data.Content | string | 文章内容 |
| Data.TextContent | string | 文章内容(不包含 HTML 标签,按段落分割) |
| Data.Length | int | 文章长度 |
| Data.Excerpt | string | 文章摘要 |
| Data.SiteName | string | 网站名称 |
| Data.PublishedTime | string[] | 文章发布时间 |
5. 错误码说明
| 状态码 | 错误说明 | 备注 |
|---|---|---|
| 200 | 正常返回 | - |
| 400 | 参数错误 | - |
| 429 | 请求频率受限 | 每秒请求不能超过 100 次 |
| 403 | 账号欠费 | 请及时关注订单到期短信提醒 |
| 402 | APPKEY 错误 | 请检查传递的 APPKEY 是否为开发者中心获取到的值 |
| 500 | 接口响应错误 | - |
6. 适用场景
- 适合用于站点内容抽取与网页分析,快速补齐产品侧需要的 网页可读内容抽取 数据能力。
- 适合用于SEO 检查与页面结构处理,减少手工整理、清洗与重复开发成本。
- 适合用于网页自动化采集与结构化输出,将接口结果直接接入后台系统、数据任务或内容处理流程。
7. 相关接口
- 可搭配使用:获取任意站点标题与图标,适合补充同类场景的接口能力。
- 可搭配使用:域名 Whois 查询,适合补充同类场景的接口能力。
- 可搭配使用:域名 SSL 证书信息解析,适合补充同类场景的接口能力。

Top comments (0)