做中国消费品牌研究、跨境电商选品、KOL 投放复盘,绕不开小红书(RedNote / Xiaohongshu,小红书)。它是种草、口碑和趋势的第一现场。但真要把小红书的数据"拿下来"做分析,墙内墙外都有坑:官方没有公开 API、页面是 JavaScript 动态渲染、反爬严格,而且在中国大陆以外访问还要先解决出口网络的问题。
这篇文章介绍一个开箱即用的方案:Apify 上的 RedNote (Xiaohongshu) Scraper 采集器。它在云端运行、自带住宅代理与浏览器回退,返回结构化 JSON,支持四种采集模式——发现页热门、关键词搜索、话题标签、达人主页。下面给出字段说明、可直接复制的代码、计费明细和常见问题。
1. 痛点:小红书数据为什么这么难拿
如果你自己写过小红书爬虫,大概都踩过这些坑:
- 没有公开 API。 小红书不对外提供数据接口,所有数据只能从前端页面解析。
-
动态渲染 + 反爬。 笔记内容、点赞收藏数都是 JavaScript 异步加载,简单的
requests抓到的是空壳;频繁请求很快触发风控。 - 出口网络问题。 在中国大陆以外直接抓取,IP 与地域信号容易被识别为异常,需要合适的住宅代理出口。
- 多模式各写一套。 热门、搜索、话题、达人主页的页面结构各不相同,逐个维护成本很高。
这个采集器把上面这些都封装好了:你只需要给一个模式和关键词,它替你处理渲染、代理和字段标准化。
2. 这个采集器能做什么:四种采集模式
RedNote Scraper 用一个 mode 参数切换四种采集方式,输出统一的结构化记录:
| 模式(mode) | 采集对象 | 典型用途 |
|---|---|---|
trending |
发现页 / 热门信息流 | 实时捕捉正在爆的内容与话题 |
keyword_search |
关键词搜索结果(keywords) |
选品调研、品类口碑、竞品监测 |
hashtag |
话题 / 标签页(hashtags) |
活动话题追踪、UGC 内容聚合 |
user_posts |
指定达人主页笔记(users) |
KOL / 竞品账号内容复盘 |
核心输入参数:mode(必选其一)、keywords / hashtags / users(按模式填写)、limit(单次最多 500 条,默认 30)、proxyConfiguration(默认住宅代理,见第 6 节)。
3. 适合谁用
- 跨境电商 / 品牌方: 在防火墙外监测国内小红书的品类口碑、爆款笔记和竞品种草动作。
- 市场 / 社媒研究员: 按关键词或话题批量拉取笔记,做趋势分析和内容聚类。
- KOL 投放 / MCN: 复盘达人主页的笔记表现,量化互动数据辅助选号。
- 数据 / 量化团队: 把小红书的舆情信号接入自己的数据管道,和电商、搜索、财经数据交叉分析。
4. 输出字段示例
每条笔记返回一条结构化记录,字段如下(均为公开数据,不含个人隐私信息):
| 字段 | 含义 |
|---|---|
post_id |
笔记 ID |
author / author_id
|
作者昵称 / 作者 ID |
title |
笔记标题 |
body |
正文文本 |
image_urls |
配图 URL 列表 |
hashtags |
话题标签列表 |
likes_count / comments_count / shares_count / collected_count
|
点赞 / 评论 / 分享 / 收藏数 |
engagement_total |
互动总量(点赞+收藏+评论+分享) |
posted_at |
发布时间 |
url |
笔记链接 |
mode |
采集来源模式 |
单条记录的 JSON 大致长这样:
{
"post_id": "660f...e21",
"author": "某美妆博主",
"author_id": "5f8c...a9",
"title": "平价精华真实测评|熬夜党必看",
"body": "用了三周,说说真实感受……",
"image_urls": ["https://sns-img...jpg"],
"hashtags": ["护肤", "平价好物", "精华测评"],
"likes_count": 12840,
"comments_count": 533,
"shares_count": 211,
"collected_count": 9602,
"engagement_total": 23186,
"posted_at": "2026-06-10T08:12:00Z",
"url": "https://www.xiaohongshu.com/explore/660f...e21",
"mode": "keyword_search"
}
数据集可一键导出为 CSV / Excel / JSON,或通过 Apify 的数据集 API 拉取。
5. 典型使用场景
-
品类口碑监测: 用
keyword_search拉取"平价精华""防晒"等关键词笔记,按engagement_total排序找出真正引爆的内容。 -
竞品种草追踪: 用
user_posts定期抓取竞品官方号 / 合作达人的笔记,观察其投放节奏与爆款套路。 -
活动话题复盘: 用
hashtag聚合某次营销活动话题下的全部 UGC,统计参与量与高赞内容。 -
趋势雷达: 每天定时跑
trending,把发现页热门沉淀成时间序列,第一时间发现正在起势的品类。
6. 在 Apify 上运行
采集器地址:RedNote (Xiaohongshu) Scraper on Apify。注册即送 $5 免费额度 (通过此链接注册),足够先把工具跑通。
五行代码跑通一次关键词搜索:
from apify_client import ApifyClient
client = ApifyClient("YOUR_APIFY_TOKEN")
run = client.actor("nexgendata/rednote-scraper").call(run_input={
"mode": "keyword_search",
"keywords": ["平价精华"],
"limit": 100,
})
for item in client.dataset(run["defaultDatasetId"]).iterate_items():
print(item["likes_count"], item["title"], item["url"])
关于代理与"墙外抓取"
采集器默认走 Apify 的住宅代理(residential) ,并带浏览器级请求头与 Playwright 无头 Chromium 回退 (浏览器环境 locale 设为 zh-CN,请求头 Accept-Language: zh-CN)。普通 HTTP 抓取失败时自动切换到真实浏览器渲染,并在被拦截时换一个住宅出口重试。整套流程跑在 Apify 云端,因此你在中国大陆以外也能稳定取数——这正是它的核心价值。你也可以通过 proxyConfiguration 自定义代理分组或出口国家/地区。
计费透明:到底多少钱
采用 按事件计费(Pay-Per-Event) ,没有月费、跑多少算多少:
- 启动费:$0.00005 / 次
- 每条笔记:$0.02
也就是说,抓 100 条笔记约 $2 ;注册赠送的 $5 免费额度 足够抓约 250 条,先把工具跑通再决定要不要充值。
7. 相关 Actor:搭建完整的中国社媒数据栈
小红书只是其中一块。把下面这些采集器组合起来,就能覆盖中国主流社媒与电商的舆情、趋势与财经数据,全部输出统一的结构化 JSON:
- 微博热搜追踪 Weibo Hot Search Tracker —— 实时微博热搜榜
- B站视频搜索 Bilibili Video Search —— 按关键词抓取 B 站视频元数据
- B站视频评论采集 Bilibili Video Comments —— 抓取指定视频的评论
- 中国趋势汇总 China Trends Tracker —— 微博/百度/抖音趋势一站聚合
- 东方财富 A 股选股 Eastmoney China A-Shares Screener —— 沪深全 A 股行情与基本面
另有小红书笔记详情 与达人主页 两个配套采集器即将上线,敬请期待。
8. 常见问题
需要登录小红书账号吗?
不需要。trending / keyword_search / hashtag / user_posts 四种模式抓取的都是公开页面,无需账号或 Cookie。
数据是实时的吗?
是。采集器在运行那一刻实时拉取页面,点赞、评论、收藏等互动数都是当时的最新值。
会被小红书反爬拦截吗?
采集器默认使用住宅代理 + 浏览器级请求头,并在普通请求失败时回退到 Playwright 无头浏览器渲染;被拦截时会换一个住宅出口自动重试,最大程度降低被风控的概率。
在中国大陆以外能用吗?
能。整套流程运行在 Apify 云端并通过住宅代理出口,因此在防火墙外也能稳定取数——这正是它相比自建爬虫的核心优势。
一次能抓多少条?
单次运行最多 500 条(limit 参数,默认 30)。需要更大规模可拆分多次运行或定时调度。
能抓到每条评论的文本吗?
核心采集器返回的是笔记级数据,包含评论数量 (comments_count)等互动指标,但不包含逐条评论文本(小红书评论需要登录态)。如只需 B 站逐条评论,可使用上面的 Bilibili Video Comments 采集器。
输出能直接导入 pandas 或 Excel 吗?
可以。结果存为 Apify 数据集,支持一键导出 CSV / Excel / JSON,或通过数据集 API 直接读入 pandas。
Top comments (0)