微博热搜榜是中国互联网公认的舆情第一风向标——什么在爆、什么在发酵、官方在推什么,热搜榜上一目了然。对做品牌监测、舆情预警、内容选题、量化情绪因子的团队来说,能持续、结构化地 拿到热搜榜数据非常有价值。但热搜榜每分钟都在变,自己写脚本要处理动态接口、反爬和限流,还得自己做分类、拼音、翻译这些清洗工作。
这篇文章介绍一个开箱即用的方案:Apify 上的 Weibo Hot Search Tracker(微博热搜追踪) 采集器。它实时抓取微博热搜榜 Top 50,返回带热度、分类、新/热/沸标签、拼音和英文翻译的结构化 JSON,云端运行、可定时调度。下面给出字段说明、可直接复制的代码、计费明细和常见问题。
1. 痛点:热搜值得抓,但难以持续抓
- 变化太快。 热搜榜分钟级刷新,要捕捉趋势必须高频、稳定地采集。
- 接口反爬。 直接抓取容易被限流,需要合适的代理出口。
- 清洗繁琐。 原始数据没有统一的分类、热度、拼音和英文,自己对齐成本高。
- 缺时间序列。 单次快照没意义,要沉淀成时间序列才能看趋势——需要定时调度。
2. 这个采集器能做什么
一次运行返回当前微博热搜榜的排名列表,每条话题都带:排名、关键词、热度分、分类、新/热/沸标签、是否官方置顶话题,以及拼音和尽力而为的英文翻译。可以按分类过滤(娱乐、社会、时政、体育、科技、财经、明星),也可以选择是否包含官方置顶话题、是否附带英文翻译。
核心参数:limit(最多话题数,默认 50)、category(分类过滤:all / entertainment / society / politics / sports / tech / finance / celebrity)、include_translation(英文翻译,默认开)、include_government_topics(官方置顶话题,默认开)、proxyConfiguration(默认住宅代理)。
3. 适合谁用
- 品牌 / 公关 / 舆情团队: 实时盯榜,第一时间发现品牌相关或行业相关话题上榜。
- 内容 / 新媒体: 追热点做选题,蹭正在爆的话题。
- 量化 / 研究: 把热搜热度与分类沉淀成时间序列,构建情绪 / 关注度因子。
- 跨境团队 / 海外分析师: 借助拼音和英文翻译,无需精通中文也能跟踪中国热点。
4. 输出字段示例
每条热搜话题返回一条结构化记录:
| 字段 | 含义 |
|---|---|
rank |
榜单排名 |
keyword |
热搜关键词 |
keyword_pinyin |
关键词拼音 |
keyword_english_translation |
英文翻译(尽力而为) |
category |
分类 |
heat_score |
热度分 |
is_hot / is_new
|
是否「热」/「新」标签 |
label_chinese |
中文标签(新/热/沸等) |
is_government_topic |
是否官方置顶话题 |
weibo_url |
话题链接 |
as_of_timestamp / data_source
|
抓取时间 / 数据来源 |
单条记录的 JSON 大致长这样:
{
"rank": 1,
"keyword": "示例热搜话题",
"keyword_pinyin": "shi li re sou hua ti",
"keyword_english_translation": "Example trending topic",
"category": "society",
"heat_score": 1284000,
"is_hot": true,
"is_new": false,
"label_chinese": "热",
"is_government_topic": false,
"weibo_url": "https://s.weibo.com/weibo?q=...",
"as_of_timestamp": "2026-06-13T00:00:00Z",
"data_source": "weibo_hot_search"
}
5. 典型使用场景
- 品牌上榜预警: 每隔几分钟跑一次,匹配品牌 / 竞品关键词,一旦上榜立即告警。
-
热点选题: 按
category过滤到行业相关分类,找正在爆的话题做内容。 -
情绪因子: 把
heat_score与分类按时间序列沉淀,构建关注度 / 情绪指标。 - 跨境监测: 用英文翻译字段,让不读中文的团队也能跟踪中国热点。
6. 在 Apify 上运行
采集器地址:Weibo Hot Search Tracker on Apify。注册即送 $5 免费额度 (通过此链接注册)。
五行代码拉取当前热搜榜前 10:
from apify_client import ApifyClient
client = ApifyClient("YOUR_APIFY_TOKEN")
run = client.actor("nexgendata/weibo-hot-search-tracker").call(run_input={
"limit": 10,
"category": "all",
})
for item in client.dataset(run["defaultDatasetId"]).iterate_items():
print(item["rank"], item["keyword"], item["heat_score"], item["label_chinese"])
计费透明:到底多少钱
采用按事件计费(Pay-Per-Event) :启动 $0.01 + 每条热搜话题 $0.10 。也就是说,抓满 50 条约 $5 ;如果只需要榜单头部,把 limit 调小即可,比如只取前 10 条约 $1 。注册赠送的 $5 免费额度足够先跑一次完整榜单。
定时调度:把快照变成时间序列
热搜的价值在于趋势,所以建议在 Apify 上给这个采集器配一个 Schedule(定时任务) ,比如每 10–30 分钟跑一次(按预算调 limit),把每次结果累积到数据集或你自己的存储里,就能得到热搜的时间序列。采集器默认通过 Apify 住宅代理出口,整套流程跑在云端。
7. 相关 Actor:搭建完整的中国社媒数据栈
把微博热搜和其它中国社媒、电商、财经数据源组合起来,输出统一的结构化 JSON:
- 小红书采集 RedNote (Xiaohongshu) Scraper —— 热门 / 搜索 / 话题 / 达人笔记(另见小红书数据采集实战)
- B站视频搜索 Bilibili Video Search —— 按关键词抓 B 站视频元数据(另见B站数据采集实战)
- 中国趋势汇总 China Trends Tracker —— 微博/百度/抖音趋势一站聚合
- 东方财富 A 股选股 Eastmoney China A-Shares Screener —— 沪深全 A 股行情与基本面
8. 常见问题
需要登录微博账号吗?
不需要。采集的是公开的热搜榜数据,无需账号或 Cookie。
数据是实时的吗?
是。采集器在运行那一刻实时抓取当前热搜榜;要看趋势,建议配定时任务高频采集。
能按分类过滤吗?
可以。category 支持 all / 娱乐 / 社会 / 时政 / 体育 / 科技 / 财经 / 明星。
不懂中文也能用吗?
可以。每条话题都带拼音和尽力而为的英文翻译,方便海外团队跟踪。
能拿到时间序列吗?
能。给采集器配一个 Apify 定时任务(如每 10–30 分钟一次),把结果累积起来即可形成热搜时间序列。
输出能直接导入 pandas 或 Excel 吗?
可以。结果存为 Apify 数据集,支持一键导出 CSV / Excel / JSON,或通过数据集 API 直接读入 pandas。
Top comments (0)