GokuScraper悟空爬虫

Posted on Apr 14

政府网站不能爬？聊聊企查查等工商数据查询公司的上市之路

#data #news #startup #webscraping

政府网站不能爬？聊聊企查查等工商数据查询公司的上市之路

大家好，我是彪哥。

这篇文章从一个爬虫工程师的角度，聊聊企查查等工商数据查询公司的上市。

1.他们数据哪来的？

首先确认一个基本事实，国家这一级，目前没有统一对外售卖企业数据，

个别省份也许有，但数据量不足，难以支撑一个全量工商数据查询网站。

所以他们大部分数据不是买来的。

不要听有些公司，他们怎么为自己辩护，什么他们的数据是从官方买的，

还有一些非业内人士，不做任何求证，在那里胡乱推测。

那他们的数据哪里来的？

很简单，大部分是爬虫采集的。

为了避免本篇文章成为一篇没有证据的水文。

我从企查查的这个上市问询PDF直接截图出来，好吧。

我翻译一下，

第一问，

监管层问，问企查查自动化采集（也就是爬虫）的范围是什么？

会不会把人家政府网站爬崩了？合不合规？有没有被处罚过？

企查查回复，

自报家门：我们是拿了牌照的“正规军”（人行南京分行备案的企业征信机构）。

根据《征信业管理条例》，我们有权采集政府依法公开的信息。

温柔采集：我们自研了系统，爬之前先做稳定性测试。

我们的流量连人家网站日均流量的三分之一都不到，绝对不会把人家搞崩。

无罪证明：企查查还特意开了苏州公安局出的“无违法违规证明”，自证清白，说从 2021 年到现在没被查过。

第二问，

监管层质疑：你说你技术“行业领先”，证据在哪？

企查查直接上了硬数据：每天跑 20 万个采集任务，新增数据 2956 万条，全网每日更新 2.2 亿条。

质疑AI ：他们说 AI 工具（比如 DeepSeek、ChatGPT）虽然厉害，但它们没法直接处理碎片化的实时政务数据，

容易产生“幻觉” ，而企查查的护城河是那套“结构化、标签化、关联化”的私域数据库。

2.所以政府的网站到底能不能爬？

很多人一听“爬虫”“政府网站”，第一反应就是违法，甚至直接等同于黑客攻击。

但在工业界，这件事没那么简单。

说白了：这是灰度问题，不是黑白问题。

关键不在于“是不是政府网站”，而在于：

你爬的是不是公开数据？

你拿去干什么？

你的爬虫手段是什么？

隐私数据脱敏了吗？

另外一个常见误解是，把“自动化爬虫”直接等同于 DDoS 攻击。

正常爬虫行为是有节奏、有控制、有业务目的的访问，

DDoS是高频、无意义、以压垮系统为目的的流量冲击，

说得更直接一点，国家级网站也不是谁都能随便打崩的。

3.企查查能上市吗，之前启信宝上市为啥那么难？

启信宝的母公司是合合信息，他公司的这个业务还挺多的，

不能简单跟这次企查查上市类比，

不过这类工商数据查询公司上市艰难的原因，也都是下面一些原因。

3.1 数据来源

这几家公司说白了，就是政府公开数据的“搬运工”。

这些公司最核心的资产——数据，不是它们自己的。

它们是把政府公开的数据抓过来，重新洗一遍，再加工一下，卖给客户。

这种买卖最怕两件事：一是山上不让接水了（数据断供），

二是国家自己在山下修了个大自来水管，还免费（官方版上线）。

3.2合规性

这几家公司在起家的时候，手段都不太“干净”，“硬爬”。

它们不仅抓工商信息，还抓老板的电话、个人风险、各种诉讼。

在《个人信息保护法》越来越严的今天，这叫“侵犯隐私”。

这类公司每年都要背着成千上万个侵权官司。

4. 国家不能把数据直接卖给他们吗？

这可能不是钱的问题，是“名分”和“风险”的问题：

“公共服务”的政治正确：

工商数据本质上是全社会的公共资源。

如果国家把数据打包卖给几家私人公司，那就变成了“拿着纳税人的数据卖给纳税人钱”。

这在舆论和法理上很难解释。

“诸侯割据”的数据孤岛：

数据散在各个省市。要把新疆、上海、辽宁的数据全打通，

做成一个秒响应的全国 API，这不只是技术活，更是行政上的“削藩”。

地方政府不一定愿意把自家的“金矿”白白交给中央或者第三方。

安全高压线：

给一个搜索框让你查，那是“点状查询”；给一个 API，那就是“开闸放水”。

一旦给企查查们开了官方 API，万一这帮公司的数据安全没做好，

导致全国企业底数被境外势力“一锅端”了，这个责谁也担不起。

5. 如果有官方API，这帮公司就能随便上市吗？

其实更难。你想想：

毛利率直接腰斩： 现在他们靠爬虫，成本是“服务器+IP+程序员”；如果改买官方 API，

那这笔“数据税”可能是个天文数字。到时候财报一出来，利润全给国家打工了，股民也不傻，不会买账。

“护城河”瞬间消失： 如果普通人也能花点钱也能买到同样的 API，就用不着研究什么反爬了。

到时候满大街都是“彪哥查查”、“李哥查查”，这帮百亿公司的先发优势就彻底没了。

6.企查查这个时间点上市的优势

现在的风向不是变了，是直接起台风了。在 2026 年这个节骨眼，企查查冲刺上市，占尽了“天时、地利、人和”。

6.1 身份转型

以前的尴尬： 以前大家管这叫“搞爬虫的”，说白了就是“二道贩子”，上不了台面，更进不了 A 股。

现在的风向： 现在国家搞了《“数据要素×”三年行动计划（2024—2026年）》，官方现在管这叫“数据商”。

企查查现在的招股书里，满屏都是“数据要素”、“资产入表”。

这哪是上市啊？这就是陈德强带着几百个爬虫er，排队等政审，想给自己求个“正规军编制”呢！

只要钟声一响，它就不再是那个“硬爬”网站的野路子，而是国家认证的“数字经济排头兵”。

6.2 政绩护体

KPI 逻辑： 2026 年是数据要素市场的“大考年”。国家数据局刚成立3年，

急需一个像样的大厂出来证明：“瞧见没？数据是真的能变现、能上市、能给国家交重税的！”

企查查这种行业老二，算是整个市场的“门面”。如果这时候把它给毙了，那不只是打它一家的脸，

是给整个数据要素市场泼冷水。为了保住“数据资产化”的预期，上交所也许会比以前更宽容。

6.3 钞能力打底

看看那 250 多页的回复函，企查查的财务报表确实硬气——高毛利、正现金流、净利润几亿级。

在主板上市，只要你钱挣得够多，且能自圆其说（说自己是持牌征信机构），监管层通常不会死磕技术细节。

毕竟，在这个资本寒冬里，这种不靠融资、仅靠会员费就能活得红火的公司，本身就是资本眼里的“稀缺资源”。

6.4 牌照保我

企查查在回复函里反复念经：“我是央行备案的持牌征信机构”。

这句话翻译过来就是：“既然官方给了我证，那我爬的数据就是‘法定采集’，不是‘非法获取’。

它用这张牌照，把那个“不逆向不爬虫”的技术黑盒，给套上了一层“奉旨办公”的合规马甲。

7. 如果我是上市审核，我会问啥？

7.1 关于“资源池”：海量抓取背后的“马甲”来源

提问： “为了实现全网每日 2.2 亿条的数据更新，公司在底层采集链路中，是否长期维护着规模巨大的 IP 代理池与实名账号池？

请说明：

IP 来源：你们使用的海量 IP 是通过正规云厂商采购，还是灰色链路获取？

账号来源：在公示系统实名制下，你们采集用了多少个账号？账号都是谁的，其身份认证信息是否均获得本人授权？

成本去向：财报中是否有专项列支这些资源的采购费用？如果这些资源断供，公司是否有合法的替代方案？”

7.2 关于“数据主权”：你这算不算“薅社会主义羊毛”？

提问： “你目前的绝大部分数据源于政务公开信息。虽然你有征信牌照，

但牌照是否包含‘对原始数据进行商业化二次售卖并谋取高额利润’的永久豁免权？

如果未来国家出台‘公共数据授权运营’管理办法，要求按数据调用量计费，你是否具备补缴巨额‘数据出让金’的财务能力？”

7.3 关于“官方下场”：如果“国家队”做了一个一模一样的网站呢？

提问： “目前数据局推动‘数据要素×’，鼓励公共数据开放。如果国家相关部门推出官方版的‘企业信息查询服务平台’，

且具备实时更新、零延迟、完全免费的特性，企查查除了‘ UI 好看’之外，还有什么理由让付费会员不流失？”

7.4 你和“官方数据体系”到底是什么关系？

你说你是“征信机构”，但你数据其实来自公开网页，

那你到底是：

A：官方数据体系的延伸，

B：官方数据体系的替代品，

C：官方数据体系的影子复制版本，

哪一个？

8.总结

企查查的上市之路，本质上是一场“时间差的套利”。

它利用了政府数据公开但不好用的时间差，利用了数据要素市场化改革早期的政策红利，也利用了爬虫技术领先于防守端的技术红利。

正如彪哥所说，这种逻辑是很脆弱的，

技术上：它是“猫鼠游戏”，一旦猫换了重武器，鼠就没法活。

政策上：它是“借地生财”，如果地主想要收租或者直接收回土地，租客毫无还手之力。

企查查如果能成功上市，那将是爬虫工程师们的“高光时刻”—它证明了把碎片化的垃圾信息变成结构化的金矿，这本身就是一种价值。

但对于股民来说，买它更像是在赌：赌国家在短时间内还没法把公共服务做得像私人商业公司那么极致。

感谢各位朋友捧场！要是觉得内容有有点意思，别客气，点赞、在看、转发，直接安排上！

想以后第一时间看着咱的文章，别忘了点个星标⭐，别到时候找不着了。

行了，今儿就到这儿。

论成败，人生豪迈，我们下期再见！

Top comments (1)

Kevin Lau • May 15

Can you scrape JD.com?

政府网站不能爬？聊聊企查查等工商数据查询公司的上市之路

1.他们数据哪来的？

2.所以政府的网站到底能不能爬？

3.企查查能上市吗，之前启信宝上市为啥那么难？

3.1 数据来源

3.2合规性

4. 国家不能把数据直接卖给他们吗？

5. 如果有官方API，这帮公司就能随便上市吗？

6.企查查这个时间点上市的优势

6.1 身份转型

6.2 政绩护体

6.3 钞能力打底

6.4 牌照保我

7. 如果我是上市审核，我会问啥？

7.1 关于“资源池”：海量抓取背后的“马甲”来源

7.2 关于“数据主权”：你这算不算“薅社会主义羊毛”？

7.3 关于“官方下场”：如果“国家队”做了一个一模一样的 网站 呢？

7.4 你和“官方数据体系”到底是什么关系？

8.总结

7.3 关于“官方下场”：如果“国家队”做了一个一模一样的网站呢？