<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: GokuScraper悟空爬虫</title>
    <description>The latest articles on DEV Community by GokuScraper悟空爬虫 (@gokuscraper).</description>
    <link>https://dev.to/gokuscraper</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3860368%2F707fbb1a-c743-485b-9029-fe7876b62faa.jpg</url>
      <title>DEV Community: GokuScraper悟空爬虫</title>
      <link>https://dev.to/gokuscraper</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/gokuscraper"/>
    <language>en</language>
    <item>
      <title>24小时被AI爬36次，扎克伯格缺数据缺疯了</title>
      <dc:creator>GokuScraper悟空爬虫</dc:creator>
      <pubDate>Sat, 04 Apr 2026 11:57:00 +0000</pubDate>
      <link>https://dev.to/gokuscraper/24xiao-shi-bei-aipa-36ci-zha-ke-bo-ge-que-shu-ju-que-feng-liao-1g5i</link>
      <guid>https://dev.to/gokuscraper/24xiao-shi-bei-aipa-36ci-zha-ke-bo-ge-que-shu-ju-que-feng-liao-1g5i</guid>
      <description>&lt;h1&gt;
  
  
  24小时被AI爬36次，扎克伯格缺数据缺疯了
&lt;/h1&gt;

&lt;p&gt;大家好，我是彪哥。&lt;/p&gt;

&lt;p&gt;我的博客上线大概半年，平时写点技术干货。&lt;/p&gt;

&lt;p&gt;本以为读者都是咱们国内搞技术的哥们儿，结果打开 Cloudflare 的后台统计一看，&lt;/p&gt;

&lt;p&gt;好家伙，我这儿快成“国际 AI 聚会中心”了。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8uobkrbotw66xhf6qb0k.webp" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8uobkrbotw66xhf6qb0k.webp" alt="image-20260404185335690" width="800" height="410"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;我把 Cloudflare 后台的 AI 爬虫数据拉了一下，统计了最近 24 小时：&lt;/p&gt;

&lt;p&gt;榜一大哥：Meta-ExternalAgent (Meta/扎克伯格)&lt;/p&gt;

&lt;p&gt;请求数36次。流量跑了 1MB。&lt;/p&gt;

&lt;p&gt;小扎现在的 Llama 模型缺中文语料缺疯了，全网掘地三尺，连我这种小博客都不放过。&lt;/p&gt;

&lt;p&gt;榜二大哥：ClaudeBot (Anthropic)&lt;/p&gt;

&lt;p&gt;请求数31次。虽然失败了 5 次，但依然锲而不舍。&lt;/p&gt;

&lt;p&gt;Claude 现在的中文逻辑好，很大程度上就是因为这类爬虫抓得勤。&lt;/p&gt;

&lt;p&gt;榜三大哥：Googlebot (谷歌)&lt;/p&gt;

&lt;p&gt;请求数32次。老牌大哥，依然很稳。&lt;/p&gt;

&lt;p&gt;榜四：BingBot (微软/Bing)&lt;/p&gt;

&lt;p&gt;请求数20次。&lt;/p&gt;

&lt;p&gt;大家发现没有？AI 爬虫的活跃度已经完全跟传统搜索引擎（谷歌、Bing）并驾齐驱，甚至开始反超了。&lt;/p&gt;

&lt;p&gt;我们把“请求次数”和“流量”结合起来看，会发现一件更有意思的事情：&lt;/p&gt;

&lt;p&gt;这些AI爬虫，不只是来“看”，而是在用不同方式“吃”内容。&lt;/p&gt;

&lt;p&gt;简单来说，可以分成两类：&lt;/p&gt;

&lt;p&gt;第一类：高频扫荡型（看得多，但不深）&lt;/p&gt;

&lt;p&gt;比如Meta和Claude，&lt;/p&gt;

&lt;p&gt;这类爬虫的特点是：请求次数很高，但单次流量不算特别大。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frcqey3dr9kjsa7f2mnc1.webp" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frcqey3dr9kjsa7f2mnc1.webp" alt="image-20260404185835618" width="237" height="165"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;第二类：深度搬运型&lt;/p&gt;

&lt;p&gt;像是Google，Bing。&lt;/p&gt;

&lt;p&gt;请求次数不一定最多，但流量非常高。&lt;/p&gt;

&lt;p&gt;说明不是简单记录链接，而是在“完整采集内容”。&lt;/p&gt;

&lt;p&gt;这些爬虫有的负责“发现内容”，有的负责“深度消化”，&lt;/p&gt;

&lt;p&gt;最终的目标只有一个,&lt;/p&gt;

&lt;p&gt;把整个互联网，重新整理进它们的AI模型里。&lt;/p&gt;

&lt;p&gt;可能有人会问：一个小博客，有什么好爬的？&lt;/p&gt;

&lt;p&gt;其实程序员博客有一个共同点，结构清晰 + 能直接解决问题，&lt;/p&gt;

&lt;p&gt;而这，正是 AI 最喜欢的东西。&lt;/p&gt;

&lt;p&gt;因为 AI 的工作，本质上就是：把“问题”变成“答案”。&lt;/p&gt;

&lt;p&gt;互联网上的每一篇教程，对它来说，都是现成的训练素材。&lt;/p&gt;

&lt;p&gt;我得跟大家强调一点，我这博客只是个“小透明”啊！&lt;/p&gt;

&lt;p&gt;我这儿满打满算没多少文章，一天就被这帮巨头轮番“蹂躏”几十次。&lt;/p&gt;

&lt;p&gt;那些日活千万的垂直社区（知乎、豆瓣、小红书）每天面临的是什么？&lt;/p&gt;

&lt;p&gt;那些技术大牛的独立站点每天要承受什么样的抓取压力？&lt;/p&gt;

&lt;p&gt;这种“数字化采矿”已经到了丧心病狂的地步，&lt;/p&gt;

&lt;p&gt;现在的互联网，其实正在变的中心化——所有的知识都在往几家 AI 巨头那里汇集。&lt;/p&gt;

&lt;p&gt;在我的这份活跃AI爬虫名单里，除了字节跳动的 Bytespider (6次) 象征性地露了个面，剩下的全是海外巨头。&lt;/p&gt;

&lt;p&gt;国内那些的其它大厂爬虫去哪了？&lt;/p&gt;

&lt;p&gt;这事儿挺有意思的。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fxdrkxlp5vhjfxvaoo1aw.webp" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fxdrkxlp5vhjfxvaoo1aw.webp" alt="image-20260404191247786" width="641" height="615"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;作为一个博客作者，我有一个感受，现在写博客，第一读者，已经不是人了。&lt;/p&gt;

&lt;p&gt;过去十年，我们写文章，是为了让人通过搜索找到我们。&lt;/p&gt;

&lt;p&gt;但现在的路径，变成，&lt;/p&gt;

&lt;p&gt;写文章 → AI 先读 → 再决定有没有人看到你&lt;/p&gt;

&lt;p&gt;说白了，现在写博客，已经有点变味了。&lt;/p&gt;

&lt;p&gt;以前是写给人看的，现在是先写给 AI 看。&lt;/p&gt;

&lt;p&gt;人能不能看到，反而变成第二步了。&lt;/p&gt;

&lt;p&gt;你以为你在写文章， 其实已经在给 AI 打工了。&lt;/p&gt;

&lt;p&gt;以前是人找答案，现在是 AI 先把答案吃了，再喂给人。&lt;/p&gt;

</description>
    </item>
    <item>
      <title>别被“AI 采集”软文忽悠了：剥开外壳，这就是一场卖 API 的生意</title>
      <dc:creator>GokuScraper悟空爬虫</dc:creator>
      <pubDate>Sat, 04 Apr 2026 09:27:05 +0000</pubDate>
      <link>https://dev.to/gokuscraper/bie-bei-ai-cai-ji-ruan-wen-hu-you-liao-bo-kai-wai-ke-zhe-jiu-shi-chang-mai-api-de-sheng-yi-4foo</link>
      <guid>https://dev.to/gokuscraper/bie-bei-ai-cai-ji-ruan-wen-hu-you-liao-bo-kai-wai-ke-zhe-jiu-shi-chang-mai-api-de-sheng-yi-4foo</guid>
      <description>&lt;h2&gt;
  
  
  别被“AI 采集”软文忽悠了：剥开外壳，这就是一场卖 API 的生意
&lt;/h2&gt;

&lt;p&gt;大家好，我是彪哥。&lt;/p&gt;

&lt;p&gt;最近我刷到一篇趋势科技（Trend Micro）的文章，标题起得那是相当唬人，&lt;/p&gt;

&lt;p&gt;叫什么《从 LinkedIn 到定制化攻击只需 30 分钟：AI 如何加速网络犯罪》。&lt;/p&gt;

&lt;p&gt;看完之后我只有一句话：这他妈不就是一篇纯纯的软文吗？&lt;/p&gt;

&lt;p&gt;很多不明真相的兄弟可能会觉得：“哇，AI 现在这么牛逼了？半小时就能把一个人的底裤都扒出来？” &lt;/p&gt;

&lt;p&gt;醒醒吧，各位。&lt;/p&gt;

&lt;p&gt;今天我就站在一个一线开发者的角度，按咱们实操的逻辑，把这篇文章背后的猫腻给撕开了讲。&lt;/p&gt;

&lt;h3&gt;
  
  
  1. 这种文章到底在“卖”什么？
&lt;/h3&gt;

&lt;p&gt;大家得先搞明白一件事：写这篇文章的人，他不是在做公益，也不是在教你技术。&lt;/p&gt;

&lt;p&gt;他大谈特谈 AI 采集有多快、多精准，其实是为了掩盖一个事实——他自己就是卖 API 的。 &lt;/p&gt;

&lt;p&gt;这就好比一个人跑过来跟你说：“现在的小偷太厉害了，能在 30 分钟内把你家后花园翻个底朝天。”&lt;/p&gt;

&lt;p&gt;当你吓得半死的时候，他顺手从兜里掏出一把锁说：“幸好我有祖传神锁，专门防这种小偷，你要不要买一把？”&lt;/p&gt;

&lt;p&gt;文章里吹嘘的那些“自动化采集”功能，你要是真照着他的代码去写，你连第一步都迈不出去。&lt;/p&gt;

&lt;p&gt;为什么？因为它把最难、最恶心人的部分全给“跳过”了。&lt;/p&gt;

&lt;h3&gt;
  
  
  2. 采集 LinkedIn，不登录你连个毛都看不着
&lt;/h3&gt;

&lt;p&gt;只要是稍微动过手写过两行采集代码的兄弟都知道，LinkedIn 和别的网站不一样。&lt;/p&gt;

&lt;p&gt;你要是想搜人、搜公司、搜职位，必须登录。&lt;/p&gt;

&lt;p&gt;不登录的话，你打开 LinkedIn 只能看到一个极其简陋的首页。&lt;/p&gt;

&lt;p&gt;你想用它的搜索框？对不起，没门。&lt;/p&gt;

&lt;p&gt;你想按关键词筛选目标？门都没有。&lt;/p&gt;

&lt;p&gt;所以，那篇文章里说的“AI 自动化搜索”，前提是你得先有一堆能用的账号进得去。&lt;/p&gt;

&lt;p&gt;但现在的问题是，进这扇门，比登天还难。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fygw5rgq0j1v4b51mti0w.webp" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fygw5rgq0j1v4b51mti0w.webp" alt="image-20260404165957117" width="298" height="146"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  3. “实名验证”：数据抓取的终极噩梦
&lt;/h3&gt;

&lt;p&gt;这也就是我要说的重点：现在的 LinkedIn，已经不是你想进就能进的了。&lt;/p&gt;

&lt;p&gt;现在的 LinkedIn 账号体系，跟国内这些大厂的实名验证其实是“半斤八两”，甚至更变态：&lt;/p&gt;

&lt;p&gt;你想随便注册个邮箱就开爬？想得美。&lt;/p&gt;

&lt;p&gt;现在的账号只要稍微有一点异常（甚至有时候就是因为你是个新号），&lt;/p&gt;

&lt;p&gt;它立马就跳出一个框：请上传政府颁发的身份证件（护照、身份证、驾照）。&lt;/p&gt;

&lt;p&gt;现在的实名可不是让你传张照片那么简单。&lt;/p&gt;

&lt;p&gt;它接入了非常成熟的第三方身份核验系统（比如 Persona），要求你拿着手机对着脸晃两圈，做活体检测。&lt;/p&gt;

&lt;p&gt;以前我们搞采集，可能会买点小号，或者用一些模拟指纹、伪造 Cookie 的手段。&lt;/p&gt;

&lt;p&gt;但在现在的实名墙面前，这些全是小儿科。它的后台算法能瞬间识破你的环境是不是机房，你的证件是不是 P 的。&lt;/p&gt;

&lt;p&gt;一句话总结，它要的是一个真实的、有血有肉的人。&lt;/p&gt;

&lt;p&gt;普通人，上哪儿去搞那么多实名的真证件、真人脸去喂给它？&lt;/p&gt;

&lt;h3&gt;
  
  
  4. 为什么有人需要买 API 了？
&lt;/h3&gt;

&lt;p&gt;说白了，这就是一个“技术抵不过暴力”的过程。&lt;/p&gt;

&lt;p&gt;你想自己爬，你要解决：找大批量的实名号 -&amp;gt; 绕过活体验证 -&amp;gt; 维持账号权重 -&amp;gt; 处理搜索限制 -&amp;gt; 躲避风控封号。 &lt;/p&gt;

&lt;p&gt;这每一项成本加起来，已经远远超过了那点数据的价值。&lt;/p&gt;

&lt;p&gt;这时候，那些卖 API 的公司（比如写这篇水文的公司）就上场了。&lt;/p&gt;

&lt;p&gt;他们通过各种不可说的渠道，手里握着大量的、已经过好实名的、权重极高的数据池。&lt;/p&gt;

&lt;p&gt;他们把这些数据封起来，包装成所谓的“威胁情报 API”或者“数据分析接口”。&lt;/p&gt;

&lt;p&gt;你不用去管怎么登录，不用去管怎么实名，只要给钱，调一下接口，数据就出来了。&lt;/p&gt;

&lt;h3&gt;
  
  
  5. 总结一下
&lt;/h3&gt;

&lt;p&gt;所以说，别再被那些“AI 轻松采集所有网站”的鬼话给洗脑了。&lt;/p&gt;

&lt;p&gt;那篇趋势科技的文章，本质上就是利用大家对 AI 的恐慌，来推销他们那个昂贵且暴利的 API 接口。&lt;/p&gt;

&lt;p&gt;它把采集描述得轻而易举，前提是你要花钱买Api，&lt;/p&gt;

&lt;p&gt;这哪是技术飞跃啊，这明明是商业收割。&lt;/p&gt;

&lt;p&gt;对于咱们搞技术的来说，看这种文章，你就把它当个相声听听得了。&lt;/p&gt;

&lt;p&gt;真要信了它的邪，觉得自己写个 AI 脚本就能横行 LinkedIn，那最后你可能连账号实名那一关都过不去，白忙活一场。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fh7okniux6qmxhkranw49.gif" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fh7okniux6qmxhkranw49.gif" alt="抱拳了" width="329" height="329"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;感谢各位朋友捧场！要是觉得内容有点意思，&lt;strong&gt;别客气，点赞、在看、转发，直接安排上！&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;想以后第一时间看着咱的文章，&lt;strong&gt;别忘了点个星标⭐，别到时候找不着了。&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;行了，今儿就到这儿。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;论成败，人生豪迈，我们下期再见！&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;

</description>
    </item>
  </channel>
</rss>
