NexGenData

Posted on Jun 13 • Originally published at thenextgennexus.com

微博热搜实时采集：用 Apify 抓取微博热搜榜（含热度、分类、拼音与英文翻译，附代码）

微博热搜榜是中国互联网公认的舆情第一风向标——什么在爆、什么在发酵、官方在推什么，热搜榜上一目了然。对做品牌监测、舆情预警、内容选题、量化情绪因子的团队来说，能持续、结构化地 拿到热搜榜数据非常有价值。但热搜榜每分钟都在变，自己写脚本要处理动态接口、反爬和限流，还得自己做分类、拼音、翻译这些清洗工作。

这篇文章介绍一个开箱即用的方案：Apify 上的 Weibo Hot Search Tracker（微博热搜追踪） 采集器。它实时抓取微博热搜榜 Top 50，返回带热度、分类、新/热/沸标签、拼音和英文翻译的结构化 JSON，云端运行、可定时调度。下面给出字段说明、可直接复制的代码、计费明细和常见问题。

1. 痛点：热搜值得抓，但难以持续抓

变化太快。 热搜榜分钟级刷新，要捕捉趋势必须高频、稳定地采集。
接口反爬。 直接抓取容易被限流，需要合适的代理出口。
清洗繁琐。 原始数据没有统一的分类、热度、拼音和英文，自己对齐成本高。
缺时间序列。 单次快照没意义，要沉淀成时间序列才能看趋势——需要定时调度。

2. 这个采集器能做什么

一次运行返回当前微博热搜榜的排名列表，每条话题都带：排名、关键词、热度分、分类、新/热/沸标签、是否官方置顶话题，以及拼音和尽力而为的英文翻译。可以按分类过滤（娱乐、社会、时政、体育、科技、财经、明星），也可以选择是否包含官方置顶话题、是否附带英文翻译。

核心参数：limit（最多话题数，默认 50）、category（分类过滤：all / entertainment / society / politics / sports / tech / finance / celebrity）、include_translation（英文翻译，默认开）、include_government_topics（官方置顶话题，默认开）、proxyConfiguration（默认住宅代理）。

3. 适合谁用

品牌 / 公关 / 舆情团队： 实时盯榜，第一时间发现品牌相关或行业相关话题上榜。
内容 / 新媒体： 追热点做选题，蹭正在爆的话题。
量化 / 研究： 把热搜热度与分类沉淀成时间序列，构建情绪 / 关注度因子。
跨境团队 / 海外分析师： 借助拼音和英文翻译，无需精通中文也能跟踪中国热点。

4. 输出字段示例

每条热搜话题返回一条结构化记录：

字段	含义
`rank`	榜单排名
`keyword`	热搜关键词
`keyword_pinyin`	关键词拼音
`keyword_english_translation`	英文翻译（尽力而为）
`category`	分类
`heat_score`	热度分
`is_hot` / `is_new`	是否「热」/「新」标签
`label_chinese`	中文标签（新/热/沸等）
`is_government_topic`	是否官方置顶话题
`weibo_url`	话题链接
`as_of_timestamp` / `data_source`	抓取时间 / 数据来源

单条记录的 JSON 大致长这样：


    {
      "rank": 1,
      "keyword": "示例热搜话题",
      "keyword_pinyin": "shi li re sou hua ti",
      "keyword_english_translation": "Example trending topic",
      "category": "society",
      "heat_score": 1284000,
      "is_hot": true,
      "is_new": false,
      "label_chinese": "热",
      "is_government_topic": false,
      "weibo_url": "https://s.weibo.com/weibo?q=...",
      "as_of_timestamp": "2026-06-13T00:00:00Z",
      "data_source": "weibo_hot_search"
    }

5. 典型使用场景

品牌上榜预警： 每隔几分钟跑一次，匹配品牌 / 竞品关键词，一旦上榜立即告警。
热点选题： 按 category 过滤到行业相关分类，找正在爆的话题做内容。
情绪因子： 把 heat_score 与分类按时间序列沉淀，构建关注度 / 情绪指标。
跨境监测： 用英文翻译字段，让不读中文的团队也能跟踪中国热点。

6. 在 Apify 上运行

采集器地址：Weibo Hot Search Tracker on Apify。注册即送 $5 免费额度 （通过此链接注册）。

五行代码拉取当前热搜榜前 10：


    from apify_client import ApifyClient

    client = ApifyClient("YOUR_APIFY_TOKEN")
    run = client.actor("nexgendata/weibo-hot-search-tracker").call(run_input={
        "limit": 10,
        "category": "all",
    })

    for item in client.dataset(run["defaultDatasetId"]).iterate_items():
        print(item["rank"], item["keyword"], item["heat_score"], item["label_chinese"])

计费透明：到底多少钱

采用按事件计费（Pay-Per-Event） ：启动 $0.01 + 每条热搜话题 $0.10 。也就是说，抓满 50 条约 $5 ；如果只需要榜单头部，把 limit 调小即可，比如只取前 10 条约 $1 。注册赠送的 $5 免费额度足够先跑一次完整榜单。

定时调度：把快照变成时间序列

热搜的价值在于趋势，所以建议在 Apify 上给这个采集器配一个 Schedule（定时任务） ，比如每 10–30 分钟跑一次（按预算调 limit），把每次结果累积到数据集或你自己的存储里，就能得到热搜的时间序列。采集器默认通过 Apify 住宅代理出口，整套流程跑在云端。

7. 相关 Actor：搭建完整的中国社媒数据栈

把微博热搜和其它中国社媒、电商、财经数据源组合起来，输出统一的结构化 JSON：

小红书采集 RedNote (Xiaohongshu) Scraper —— 热门 / 搜索 / 话题 / 达人笔记（另见小红书数据采集实战）
B站视频搜索 Bilibili Video Search —— 按关键词抓 B 站视频元数据（另见B站数据采集实战）
中国趋势汇总 China Trends Tracker —— 微博/百度/抖音趋势一站聚合
东方财富 A 股选股 Eastmoney China A-Shares Screener —— 沪深全 A 股行情与基本面

8. 常见问题

需要登录微博账号吗？

不需要。采集的是公开的热搜榜数据，无需账号或 Cookie。

数据是实时的吗？

是。采集器在运行那一刻实时抓取当前热搜榜；要看趋势，建议配定时任务高频采集。

能按分类过滤吗？

可以。category 支持 all / 娱乐 / 社会 / 时政 / 体育 / 科技 / 财经 / 明星。

不懂中文也能用吗？

可以。每条话题都带拼音和尽力而为的英文翻译，方便海外团队跟踪。

能拿到时间序列吗？

能。给采集器配一个 Apify 定时任务（如每 10–30 分钟一次），把结果累积起来即可形成热搜时间序列。

输出能直接导入 pandas 或 Excel 吗？

可以。结果存为 Apify 数据集，支持一键导出 CSV / Excel / JSON，或通过数据集 API 直接读入 pandas。

现在就试： 在 Apify 上运行 Weibo Hot Search Tracker · 注册领取 $5 免费额度

DEV Community