DEV Community

NexGenData
NexGenData

Posted on • Originally published at thenextgennexus.com

微博热搜实时采集:用 Apify 抓取微博热搜榜(含热度、分类、拼音与英文翻译,附代码)

微博热搜榜是中国互联网公认的舆情第一风向标——什么在爆、什么在发酵、官方在推什么,热搜榜上一目了然。对做品牌监测、舆情预警、内容选题、量化情绪因子的团队来说,能持续、结构化地 拿到热搜榜数据非常有价值。但热搜榜每分钟都在变,自己写脚本要处理动态接口、反爬和限流,还得自己做分类、拼音、翻译这些清洗工作。

这篇文章介绍一个开箱即用的方案:Apify 上的 Weibo Hot Search Tracker(微博热搜追踪) 采集器。它实时抓取微博热搜榜 Top 50,返回带热度、分类、新/热/沸标签、拼音和英文翻译的结构化 JSON,云端运行、可定时调度。下面给出字段说明、可直接复制的代码、计费明细和常见问题。

1. 痛点:热搜值得抓,但难以持续抓

  • 变化太快。 热搜榜分钟级刷新,要捕捉趋势必须高频、稳定地采集。
  • 接口反爬。 直接抓取容易被限流,需要合适的代理出口。
  • 清洗繁琐。 原始数据没有统一的分类、热度、拼音和英文,自己对齐成本高。
  • 缺时间序列。 单次快照没意义,要沉淀成时间序列才能看趋势——需要定时调度。

2. 这个采集器能做什么

一次运行返回当前微博热搜榜的排名列表,每条话题都带:排名、关键词、热度分、分类、新/热/沸标签、是否官方置顶话题,以及拼音和尽力而为的英文翻译。可以按分类过滤(娱乐、社会、时政、体育、科技、财经、明星),也可以选择是否包含官方置顶话题、是否附带英文翻译。

核心参数:limit(最多话题数,默认 50)、category(分类过滤:all / entertainment / society / politics / sports / tech / finance / celebrity)、include_translation(英文翻译,默认开)、include_government_topics(官方置顶话题,默认开)、proxyConfiguration(默认住宅代理)。

3. 适合谁用

  • 品牌 / 公关 / 舆情团队: 实时盯榜,第一时间发现品牌相关或行业相关话题上榜。
  • 内容 / 新媒体: 追热点做选题,蹭正在爆的话题。
  • 量化 / 研究: 把热搜热度与分类沉淀成时间序列,构建情绪 / 关注度因子。
  • 跨境团队 / 海外分析师: 借助拼音和英文翻译,无需精通中文也能跟踪中国热点。

4. 输出字段示例

每条热搜话题返回一条结构化记录:

字段 含义
rank 榜单排名
keyword 热搜关键词
keyword_pinyin 关键词拼音
keyword_english_translation 英文翻译(尽力而为)
category 分类
heat_score 热度分
is_hot / is_new 是否「热」/「新」标签
label_chinese 中文标签(新/热/沸等)
is_government_topic 是否官方置顶话题
weibo_url 话题链接
as_of_timestamp / data_source 抓取时间 / 数据来源

单条记录的 JSON 大致长这样:


    {
      "rank": 1,
      "keyword": "示例热搜话题",
      "keyword_pinyin": "shi li re sou hua ti",
      "keyword_english_translation": "Example trending topic",
      "category": "society",
      "heat_score": 1284000,
      "is_hot": true,
      "is_new": false,
      "label_chinese": "热",
      "is_government_topic": false,
      "weibo_url": "https://s.weibo.com/weibo?q=...",
      "as_of_timestamp": "2026-06-13T00:00:00Z",
      "data_source": "weibo_hot_search"
    }
Enter fullscreen mode Exit fullscreen mode

5. 典型使用场景

  • 品牌上榜预警: 每隔几分钟跑一次,匹配品牌 / 竞品关键词,一旦上榜立即告警。
  • 热点选题:category 过滤到行业相关分类,找正在爆的话题做内容。
  • 情绪因子:heat_score 与分类按时间序列沉淀,构建关注度 / 情绪指标。
  • 跨境监测: 用英文翻译字段,让不读中文的团队也能跟踪中国热点。

6. 在 Apify 上运行

采集器地址:Weibo Hot Search Tracker on Apify。注册即送 $5 免费额度通过此链接注册)。

五行代码拉取当前热搜榜前 10:


    from apify_client import ApifyClient

    client = ApifyClient("YOUR_APIFY_TOKEN")
    run = client.actor("nexgendata/weibo-hot-search-tracker").call(run_input={
        "limit": 10,
        "category": "all",
    })

    for item in client.dataset(run["defaultDatasetId"]).iterate_items():
        print(item["rank"], item["keyword"], item["heat_score"], item["label_chinese"])

Enter fullscreen mode Exit fullscreen mode

计费透明:到底多少钱

采用按事件计费(Pay-Per-Event) :启动 $0.01 + 每条热搜话题 $0.10 。也就是说,抓满 50 条约 $5 ;如果只需要榜单头部,把 limit 调小即可,比如只取前 10 条约 $1 。注册赠送的 $5 免费额度足够先跑一次完整榜单。

定时调度:把快照变成时间序列

热搜的价值在于趋势,所以建议在 Apify 上给这个采集器配一个 Schedule(定时任务) ,比如每 10–30 分钟跑一次(按预算调 limit),把每次结果累积到数据集或你自己的存储里,就能得到热搜的时间序列。采集器默认通过 Apify 住宅代理出口,整套流程跑在云端。

7. 相关 Actor:搭建完整的中国社媒数据栈

把微博热搜和其它中国社媒、电商、财经数据源组合起来,输出统一的结构化 JSON:

8. 常见问题

需要登录微博账号吗?

不需要。采集的是公开的热搜榜数据,无需账号或 Cookie。

数据是实时的吗?

是。采集器在运行那一刻实时抓取当前热搜榜;要看趋势,建议配定时任务高频采集。

能按分类过滤吗?

可以。category 支持 all / 娱乐 / 社会 / 时政 / 体育 / 科技 / 财经 / 明星。

不懂中文也能用吗?

可以。每条话题都带拼音和尽力而为的英文翻译,方便海外团队跟踪。

能拿到时间序列吗?

能。给采集器配一个 Apify 定时任务(如每 10–30 分钟一次),把结果累积起来即可形成热搜时间序列。

输出能直接导入 pandas 或 Excel 吗?

可以。结果存为 Apify 数据集,支持一键导出 CSV / Excel / JSON,或通过数据集 API 直接读入 pandas。

现在就试: 在 Apify 上运行 Weibo Hot Search Tracker · 注册领取 $5 免费额度

Top comments (0)