NexGenData

Posted on Jun 13 • Originally published at thenextgennexus.com

小红书数据采集实战：在防火墙外用 Apify 抓取 RedNote 笔记、话题与达人（附代码）

做中国消费品牌研究、跨境电商选品、KOL 投放复盘，绕不开小红书（RedNote / Xiaohongshu，小红书）。它是种草、口碑和趋势的第一现场。但真要把小红书的数据"拿下来"做分析，墙内墙外都有坑：官方没有公开 API、页面是 JavaScript 动态渲染、反爬严格，而且在中国大陆以外访问还要先解决出口网络的问题。

这篇文章介绍一个开箱即用的方案：Apify 上的 RedNote (Xiaohongshu) Scraper 采集器。它在云端运行、自带住宅代理与浏览器回退，返回结构化 JSON，支持四种采集模式——发现页热门、关键词搜索、话题标签、达人主页。下面给出字段说明、可直接复制的代码、计费明细和常见问题。

1. 痛点：小红书数据为什么这么难拿

如果你自己写过小红书爬虫，大概都踩过这些坑：

没有公开 API。 小红书不对外提供数据接口，所有数据只能从前端页面解析。
动态渲染 + 反爬。 笔记内容、点赞收藏数都是 JavaScript 异步加载，简单的 requests 抓到的是空壳；频繁请求很快触发风控。
出口网络问题。 在中国大陆以外直接抓取，IP 与地域信号容易被识别为异常，需要合适的住宅代理出口。
多模式各写一套。 热门、搜索、话题、达人主页的页面结构各不相同，逐个维护成本很高。

这个采集器把上面这些都封装好了：你只需要给一个模式和关键词，它替你处理渲染、代理和字段标准化。

2. 这个采集器能做什么：四种采集模式

RedNote Scraper 用一个 mode 参数切换四种采集方式，输出统一的结构化记录：

模式（mode）	采集对象	典型用途
`trending`	发现页 / 热门信息流	实时捕捉正在爆的内容与话题
`keyword_search`	关键词搜索结果（`keywords`）	选品调研、品类口碑、竞品监测
`hashtag`	话题 / 标签页（`hashtags`）	活动话题追踪、UGC 内容聚合
`user_posts`	指定达人主页笔记（`users`）	KOL / 竞品账号内容复盘

核心输入参数：mode（必选其一）、keywords / hashtags / users（按模式填写）、limit（单次最多 500 条，默认 30）、proxyConfiguration（默认住宅代理，见第 6 节）。

3. 适合谁用

跨境电商 / 品牌方： 在防火墙外监测国内小红书的品类口碑、爆款笔记和竞品种草动作。
市场 / 社媒研究员： 按关键词或话题批量拉取笔记，做趋势分析和内容聚类。
KOL 投放 / MCN： 复盘达人主页的笔记表现，量化互动数据辅助选号。
数据 / 量化团队： 把小红书的舆情信号接入自己的数据管道，和电商、搜索、财经数据交叉分析。

4. 输出字段示例

每条笔记返回一条结构化记录，字段如下（均为公开数据，不含个人隐私信息）：

字段	含义
`post_id`	笔记 ID
`author` / `author_id`	作者昵称 / 作者 ID
`title`	笔记标题
`body`	正文文本
`image_urls`	配图 URL 列表
`hashtags`	话题标签列表
`likes_count` / `comments_count` / `shares_count` / `collected_count`	点赞 / 评论 / 分享 / 收藏数
`engagement_total`	互动总量（点赞+收藏+评论+分享）
`posted_at`	发布时间
`url`	笔记链接
`mode`	采集来源模式

单条记录的 JSON 大致长这样：


    {
      "post_id": "660f...e21",
      "author": "某美妆博主",
      "author_id": "5f8c...a9",
      "title": "平价精华真实测评｜熬夜党必看",
      "body": "用了三周，说说真实感受……",
      "image_urls": ["https://sns-img...jpg"],
      "hashtags": ["护肤", "平价好物", "精华测评"],
      "likes_count": 12840,
      "comments_count": 533,
      "shares_count": 211,
      "collected_count": 9602,
      "engagement_total": 23186,
      "posted_at": "2026-06-10T08:12:00Z",
      "url": "https://www.xiaohongshu.com/explore/660f...e21",
      "mode": "keyword_search"
    }

数据集可一键导出为 CSV / Excel / JSON，或通过 Apify 的数据集 API 拉取。

5. 典型使用场景

品类口碑监测： 用 keyword_search 拉取"平价精华""防晒"等关键词笔记，按 engagement_total 排序找出真正引爆的内容。
竞品种草追踪： 用 user_posts 定期抓取竞品官方号 / 合作达人的笔记，观察其投放节奏与爆款套路。
活动话题复盘： 用 hashtag 聚合某次营销活动话题下的全部 UGC，统计参与量与高赞内容。
趋势雷达： 每天定时跑 trending，把发现页热门沉淀成时间序列，第一时间发现正在起势的品类。

6. 在 Apify 上运行

采集器地址：RedNote (Xiaohongshu) Scraper on Apify。注册即送 $5 免费额度 （通过此链接注册），足够先把工具跑通。

五行代码跑通一次关键词搜索：


    from apify_client import ApifyClient

    client = ApifyClient("YOUR_APIFY_TOKEN")
    run = client.actor("nexgendata/rednote-scraper").call(run_input={
        "mode": "keyword_search",
        "keywords": ["平价精华"],
        "limit": 100,
    })

    for item in client.dataset(run["defaultDatasetId"]).iterate_items():
        print(item["likes_count"], item["title"], item["url"])

关于代理与"墙外抓取"

采集器默认走 Apify 的住宅代理（residential） ，并带浏览器级请求头与 Playwright 无头 Chromium 回退 （浏览器环境 locale 设为 zh-CN，请求头 Accept-Language: zh-CN）。普通 HTTP 抓取失败时自动切换到真实浏览器渲染，并在被拦截时换一个住宅出口重试。整套流程跑在 Apify 云端，因此你在中国大陆以外也能稳定取数——这正是它的核心价值。你也可以通过 proxyConfiguration 自定义代理分组或出口国家/地区。

计费透明：到底多少钱

采用 按事件计费（Pay-Per-Event） ，没有月费、跑多少算多少：

启动费：$0.00005 / 次
每条笔记：$0.02

也就是说，抓 100 条笔记约 $2 ；注册赠送的 $5 免费额度 足够抓约 250 条，先把工具跑通再决定要不要充值。

7. 相关 Actor：搭建完整的中国社媒数据栈

小红书只是其中一块。把下面这些采集器组合起来，就能覆盖中国主流社媒与电商的舆情、趋势与财经数据，全部输出统一的结构化 JSON：

微博热搜追踪 Weibo Hot Search Tracker —— 实时微博热搜榜
B站视频搜索 Bilibili Video Search —— 按关键词抓取 B 站视频元数据
B站视频评论采集 Bilibili Video Comments —— 抓取指定视频的评论
中国趋势汇总 China Trends Tracker —— 微博/百度/抖音趋势一站聚合
东方财富 A 股选股 Eastmoney China A-Shares Screener —— 沪深全 A 股行情与基本面

另有小红书笔记详情 与达人主页 两个配套采集器即将上线，敬请期待。

8. 常见问题

需要登录小红书账号吗？

不需要。trending / keyword_search / hashtag / user_posts 四种模式抓取的都是公开页面，无需账号或 Cookie。

数据是实时的吗？

是。采集器在运行那一刻实时拉取页面，点赞、评论、收藏等互动数都是当时的最新值。

会被小红书反爬拦截吗？

采集器默认使用住宅代理 + 浏览器级请求头，并在普通请求失败时回退到 Playwright 无头浏览器渲染；被拦截时会换一个住宅出口自动重试，最大程度降低被风控的概率。

在中国大陆以外能用吗？

能。整套流程运行在 Apify 云端并通过住宅代理出口，因此在防火墙外也能稳定取数——这正是它相比自建爬虫的核心优势。

一次能抓多少条？

单次运行最多 500 条（limit 参数，默认 30）。需要更大规模可拆分多次运行或定时调度。

能抓到每条评论的文本吗？

核心采集器返回的是笔记级数据，包含评论数量（comments_count）等互动指标，但不包含逐条评论文本（小红书评论需要登录态）。如只需 B 站逐条评论，可使用上面的 Bilibili Video Comments 采集器。

输出能直接导入 pandas 或 Excel 吗？

可以。结果存为 Apify 数据集，支持一键导出 CSV / Excel / JSON，或通过数据集 API 直接读入 pandas。

现在就试： 在 Apify 上运行 RedNote Scraper · 注册领取 $5 免费额度

DEV Community