DEV Community

NexGenData
NexGenData

Posted on • Originally published at thenextgennexus.com

小红书数据采集实战:在防火墙外用 Apify 抓取 RedNote 笔记、话题与达人(附代码)

做中国消费品牌研究、跨境电商选品、KOL 投放复盘,绕不开小红书(RedNote / Xiaohongshu,小红书)。它是种草、口碑和趋势的第一现场。但真要把小红书的数据"拿下来"做分析,墙内墙外都有坑:官方没有公开 API、页面是 JavaScript 动态渲染、反爬严格,而且在中国大陆以外访问还要先解决出口网络的问题。

这篇文章介绍一个开箱即用的方案:Apify 上的 RedNote (Xiaohongshu) Scraper 采集器。它在云端运行、自带住宅代理与浏览器回退,返回结构化 JSON,支持四种采集模式——发现页热门、关键词搜索、话题标签、达人主页。下面给出字段说明、可直接复制的代码、计费明细和常见问题。

1. 痛点:小红书数据为什么这么难拿

如果你自己写过小红书爬虫,大概都踩过这些坑:

  • 没有公开 API。 小红书不对外提供数据接口,所有数据只能从前端页面解析。
  • 动态渲染 + 反爬。 笔记内容、点赞收藏数都是 JavaScript 异步加载,简单的 requests 抓到的是空壳;频繁请求很快触发风控。
  • 出口网络问题。 在中国大陆以外直接抓取,IP 与地域信号容易被识别为异常,需要合适的住宅代理出口。
  • 多模式各写一套。 热门、搜索、话题、达人主页的页面结构各不相同,逐个维护成本很高。

这个采集器把上面这些都封装好了:你只需要给一个模式和关键词,它替你处理渲染、代理和字段标准化。

2. 这个采集器能做什么:四种采集模式

RedNote Scraper 用一个 mode 参数切换四种采集方式,输出统一的结构化记录:

模式(mode) 采集对象 典型用途
trending 发现页 / 热门信息流 实时捕捉正在爆的内容与话题
keyword_search 关键词搜索结果(keywords 选品调研、品类口碑、竞品监测
hashtag 话题 / 标签页(hashtags 活动话题追踪、UGC 内容聚合
user_posts 指定达人主页笔记(users KOL / 竞品账号内容复盘

核心输入参数:mode(必选其一)、keywords / hashtags / users(按模式填写)、limit(单次最多 500 条,默认 30)、proxyConfiguration(默认住宅代理,见第 6 节)。

3. 适合谁用

  • 跨境电商 / 品牌方: 在防火墙外监测国内小红书的品类口碑、爆款笔记和竞品种草动作。
  • 市场 / 社媒研究员: 按关键词或话题批量拉取笔记,做趋势分析和内容聚类。
  • KOL 投放 / MCN: 复盘达人主页的笔记表现,量化互动数据辅助选号。
  • 数据 / 量化团队: 把小红书的舆情信号接入自己的数据管道,和电商、搜索、财经数据交叉分析。

4. 输出字段示例

每条笔记返回一条结构化记录,字段如下(均为公开数据,不含个人隐私信息):

字段 含义
post_id 笔记 ID
author / author_id 作者昵称 / 作者 ID
title 笔记标题
body 正文文本
image_urls 配图 URL 列表
hashtags 话题标签列表
likes_count / comments_count / shares_count / collected_count 点赞 / 评论 / 分享 / 收藏数
engagement_total 互动总量(点赞+收藏+评论+分享)
posted_at 发布时间
url 笔记链接
mode 采集来源模式

单条记录的 JSON 大致长这样:


    {
      "post_id": "660f...e21",
      "author": "某美妆博主",
      "author_id": "5f8c...a9",
      "title": "平价精华真实测评|熬夜党必看",
      "body": "用了三周,说说真实感受……",
      "image_urls": ["https://sns-img...jpg"],
      "hashtags": ["护肤", "平价好物", "精华测评"],
      "likes_count": 12840,
      "comments_count": 533,
      "shares_count": 211,
      "collected_count": 9602,
      "engagement_total": 23186,
      "posted_at": "2026-06-10T08:12:00Z",
      "url": "https://www.xiaohongshu.com/explore/660f...e21",
      "mode": "keyword_search"
    }
Enter fullscreen mode Exit fullscreen mode

数据集可一键导出为 CSV / Excel / JSON,或通过 Apify 的数据集 API 拉取。

5. 典型使用场景

  • 品类口碑监测:keyword_search 拉取"平价精华""防晒"等关键词笔记,按 engagement_total 排序找出真正引爆的内容。
  • 竞品种草追踪:user_posts 定期抓取竞品官方号 / 合作达人的笔记,观察其投放节奏与爆款套路。
  • 活动话题复盘:hashtag 聚合某次营销活动话题下的全部 UGC,统计参与量与高赞内容。
  • 趋势雷达: 每天定时跑 trending,把发现页热门沉淀成时间序列,第一时间发现正在起势的品类。

6. 在 Apify 上运行

采集器地址:RedNote (Xiaohongshu) Scraper on Apify。注册即送 $5 免费额度通过此链接注册),足够先把工具跑通。

五行代码跑通一次关键词搜索:


    from apify_client import ApifyClient

    client = ApifyClient("YOUR_APIFY_TOKEN")
    run = client.actor("nexgendata/rednote-scraper").call(run_input={
        "mode": "keyword_search",
        "keywords": ["平价精华"],
        "limit": 100,
    })

    for item in client.dataset(run["defaultDatasetId"]).iterate_items():
        print(item["likes_count"], item["title"], item["url"])

Enter fullscreen mode Exit fullscreen mode

关于代理与"墙外抓取"

采集器默认走 Apify 的住宅代理(residential) ,并带浏览器级请求头与 Playwright 无头 Chromium 回退 (浏览器环境 locale 设为 zh-CN,请求头 Accept-Language: zh-CN)。普通 HTTP 抓取失败时自动切换到真实浏览器渲染,并在被拦截时换一个住宅出口重试。整套流程跑在 Apify 云端,因此你在中国大陆以外也能稳定取数——这正是它的核心价值。你也可以通过 proxyConfiguration 自定义代理分组或出口国家/地区。

计费透明:到底多少钱

采用 按事件计费(Pay-Per-Event) ,没有月费、跑多少算多少:

  • 启动费:$0.00005 / 次
  • 每条笔记:$0.02

也就是说,抓 100 条笔记约 $2 ;注册赠送的 $5 免费额度 足够抓约 250 条,先把工具跑通再决定要不要充值。

7. 相关 Actor:搭建完整的中国社媒数据栈

小红书只是其中一块。把下面这些采集器组合起来,就能覆盖中国主流社媒与电商的舆情、趋势与财经数据,全部输出统一的结构化 JSON:

另有小红书笔记详情达人主页 两个配套采集器即将上线,敬请期待。

8. 常见问题

需要登录小红书账号吗?

不需要。trending / keyword_search / hashtag / user_posts 四种模式抓取的都是公开页面,无需账号或 Cookie。

数据是实时的吗?

是。采集器在运行那一刻实时拉取页面,点赞、评论、收藏等互动数都是当时的最新值。

会被小红书反爬拦截吗?

采集器默认使用住宅代理 + 浏览器级请求头,并在普通请求失败时回退到 Playwright 无头浏览器渲染;被拦截时会换一个住宅出口自动重试,最大程度降低被风控的概率。

在中国大陆以外能用吗?

能。整套流程运行在 Apify 云端并通过住宅代理出口,因此在防火墙外也能稳定取数——这正是它相比自建爬虫的核心优势。

一次能抓多少条?

单次运行最多 500 条(limit 参数,默认 30)。需要更大规模可拆分多次运行或定时调度。

能抓到每条评论的文本吗?

核心采集器返回的是笔记级数据,包含评论数量comments_count)等互动指标,但不包含逐条评论文本(小红书评论需要登录态)。如只需 B 站逐条评论,可使用上面的 Bilibili Video Comments 采集器。

输出能直接导入 pandas 或 Excel 吗?

可以。结果存为 Apify 数据集,支持一键导出 CSV / Excel / JSON,或通过数据集 API 直接读入 pandas。

现在就试: 在 Apify 上运行 RedNote Scraper · 注册领取 $5 免费额度

Top comments (0)