我花了三天,找到了张雪峰的数据来源
故事是这样的。
前阵子帮亲戚家孩子看志愿,查了一堆网站,越查越觉得不对。
每个跟高考志愿有关的网站,都遮遮掩掩的。它们给你看一些数据,但从来不说这些数据打哪来的。我问的是最原始的那个来源,就是某个大学某个专业在某个省到底录了多少分,这个数据你从哪拿到的。
没人说。
这让我想起了企查查那个事。企查查你知道吧,做企业信息查询的,后来做成了上市公司。它的数据来源其实是公开的,就是全国企业信用信息公示系统,国家官网上放着的。它做的事情就是把官方数据爬下来,整理好,让你搜起来更方便。就这么一个生意,做出了一个上市公司。
后来相关部门出了规定,要求这些企业信息查询平台必须标注数据来源。所以你上企查查看一家公司,底下会有一行小字,写着「信息来源,国家企业信用信息公示系统」。
我就在想,这个逻辑放在高考志愿数据上,是不是也一样。
那些民营的高考志愿网站,他们手上那些数据,肯定也有来源对吧。他们不可能自己编一个录取分数出来。如果有来源,那这个来源应该也是某个公开的地方,只是我们普通人不知道在哪。
那我顺着这个思路去找,是不是就能找到。
然后就开始了。
我先查了新疆的教育考试院官方网站。为什么选新疆呢,因为它是比较偏远的省份,如果这种省份的数据都能在官网上查到,那说明我的方向是对的。如果连官网都没有,那这个事就更有意思了。
进去之后,找了半天,只有投档分数线。
什么叫投档分数线呢,就是每个学校在新疆录取的最后一个考生的分数。但是那个最后一名读的什么专业,查不到。你想知道某个大学某个专业录取了多少分,对不起,没有。
我又去翻了他们的官方微信公众号,里里外外翻了一遍。
也没有。
网上,就是没有这些数据。
那这些数据到底在哪呢。
我接着找。后来在一个角落里发现,原来这些数据,全在一套书里。
这套书叫「新疆招生与考试」,分成好几卷,其中有一卷叫「本科院校专业录取数据卷」,专门就是你要的东西。
对,纸质书。
出版社把这些数据印在书里,只卖纸质版。
网上你想找电子版,门都没有。
倒是有一些私人在抖音上卖电子版,几十块一份。但我翻遍了所有官方渠道,官方从来没有发布过电子版,一次都没有。
很明显,他们就是把这套数据当成信息差在做,根本没觉得这东西应该是免费公开的。
我又顺手查了江苏。江苏也有类似的东西,叫「江苏省普通高校招生计划专刊」或者「招生录取资料汇编」。一样,没有免费公开。
我当时看到新疆这个价格的时候,心想,150块四本,还行吧。但转念一想不对。这只是新疆一个省的数据。全国有多少个省呢,26个省市自治区(不算港澳台)。如果你想查全国的数据,你得把这26个省市的这种书,全部买回来。
一本大概几十到一百多。全部买下来,几千块钱吧。
这笔钱不多吧。但问题是,你得知道这些书的存在,你得知道去哪买,你得一本一本去收集。
普通家庭谁会干这个事。
但张雪峰他们就会。
我猜他们的做法是这样的。26个省市,每一个省的那几本书,全都买回来。一本一本翻,把所有的录取数据手动录入或者扫描成电子版,汇总成一个全国数据库。
这是个笨办法。但在现在这个系统下,就是唯一的办法。
因为官方压根就没有把电子数据公开过。
你想想看。你在网上看到的所有高考志愿相关的商业网站,他们手上的数据,大概率也是这么来的。要么自己买书录入,要么从别人那买数据。没有别的路。
这就造成了一个非常荒诞的局面。
在2025年,在AI时代,几百万考生的命运所系的核心数据,被锁在一本本纸质书里。你想看,你得买书。你想看全国的数据,你得买26个省的书。你想查起来方便,你得找张雪峰他们。
一层一层,全他妈是信息差。
我有时候觉得,这其实就是信息在被刻意地折叠。
有一本我很喜欢的书,叫「北京折叠」。那篇小说里,北京被分成三个物理空间,不同阶层的人生活在不同的空间里。高考志愿数据也一样。
第一层,是各省的纸质书。你花几十块钱买一本,能看到本省的数据。
第二层,是跨省的数据。你想看外省的,你得再买另一本书。一个普通家庭,谁会为了填个志愿去买二十几本书。
第三层,是整合后的数据。有人把26个省的书记录汇总成数据库,你就可以在这个数据库里一次性查到全国的数据。但你要么付钱给他们,要么自己花几千块买书再花几百个小时录入。
然后这些信息差,最终变成了咨询费、会员费、课程费。
再说说张雪峰。
很多人把他当神,也有很多人觉得他贩卖焦虑。我自己的看法是,他确实帮很多人打破了信息差。但真正荒谬的是,这些信息差本来就不应该存在。
打个不太恰当的比方。这就像有人把一扇本该敞开的门锁上了,然后把钥匙卖给你。你确实通过他进了门,但你应该问的是,这扇门为什么是锁着的。
这个事最让我觉得无力的地方在哪呢。就是它不是一个技术问题。如果是一个技术问题,总有办法解决。但它是一个利益问题。各省的教育考试院出版社靠着这些书在赚钱,一年好几个亿的市场,他们没有任何动力去改变。
而那些做高考志愿服务的商业公司,他们也不希望这些数据免费公开。因为数据公开了,他们的信息差生意就没得做了。
出版社不愿意。商业公司不愿意。那谁愿意呢。
好像没人愿意。
唯一希望这些数据公开的,可能就是那些马上要填志愿的家庭。几百万个家庭,几百万个焦虑的家长和考生。他们才是这个系统里最弱势的一群人。他们甚至不知道这些数据是被刻意隐藏的,他们只会觉得自己信息不够,觉得自己没本事,然后花钱去买那些本该免费的信息。
而张雪峰的第一步信息差,就是在这儿来的。不说别的,就最基础的那些录取数据本身,大部分人就已经够不着了。你连起跑线在哪都看不到,你怎么跟人家跑。
这就让我想到了企查查那个故事。企业信息以前也是不透明的。你得找关系、托人才能查到一家公司到底怎么样。后来国家把企业信用信息公示系统做起来了,所有数据都公开了。企查查它们做的事情就变成了「帮你更方便地查」,而不是「帮你查到本来看不到的数据」。
这才是健康的模式。数据是公开的,商业公司做的是体验和效率。而不是反过来,数据是不公开的,商业公司做的是「帮你去搞本来看不到的数据」。
高考志愿的数据什么时候能走到那一步呢。
我不知道。
但我还是始终相信,这些墙在汹涌向前的洪流之下,必然会倒塌。
新的时代,一定会到来的。
感谢各位朋友捧场!要是觉得内容有有点意思,别客气,点赞、在看、转发,直接安排上!
想以后第一时间看着咱的文章,别忘了点个星标⭐,别到时候找不着了。
行了,今儿就到这儿。
论成败,人生豪迈,我们下期再见!








Top comments (0)