<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: cognitalk</title>
    <description>The latest articles on DEV Community by cognitalk (@cognitalk).</description>
    <link>https://dev.to/cognitalk</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.us-east-2.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F3948334%2F31908684-dec9-48a5-96bd-d83b6de4c8ef.jpg</url>
      <title>DEV Community: cognitalk</title>
      <link>https://dev.to/cognitalk</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/cognitalk"/>
    <language>en</language>
    <item>
      <title>翁荔Scaling Law博文解读</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Thu, 02 Jul 2026 17:00:03 +0000</pubDate>
      <link>https://dev.to/cognitalk/weng-li-scaling-lawbo-wen-jie-du-lia</link>
      <guid>https://dev.to/cognitalk/weng-li-scaling-lawbo-wen-jie-du-lia</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/o0Bl3zeDfJM"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="https://www.youtube.com/watch?v=o0Bl3zeDfJM" rel="noopener noreferrer"&gt;https://www.youtube.com/watch?v=o0Bl3zeDfJM&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;博客原文地址 &lt;a href="https://lilianweng.github.io/posts/2026-06-24-scaling-laws/" rel="noopener noreferrer"&gt;https://lilianweng.github.io/posts/2026-06-24-scaling-laws/&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;先通俗易懂的解读这篇硬核博客  👇&lt;/p&gt;


&lt;h2&gt;
  
  
  🎯 一句话版
&lt;/h2&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;模型越大、数据越多、算得越久，AI 就越聪明——而且变好的速度和规模之间，大致遵循一条"幂律曲线"。&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
但到底"模型"和"数据"谁该先加大？这是整篇文章争论的核心。&lt;/p&gt;
&lt;/blockquote&gt;


&lt;h2&gt;
  
  
  🍳 用一个做菜类比
&lt;/h2&gt;

&lt;p&gt;假设你在练一个超牛大厨（= 训练 AI）：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;模型参数量 N&lt;/strong&gt; = 厨师脑容量（记菜谱、技巧的能力）&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;数据量 D&lt;/strong&gt; = 你让他练过的菜品份数&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;计算量 C&lt;/strong&gt; = 总时间 + 灶台费（钱/电）&lt;/li&gt;
&lt;/ul&gt;


&lt;h3&gt;
  
  
  🔹 Kaplan（2020）说：
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;"脑子大的厨师，学得快，所以给同样预算，&lt;strong&gt;优先把脑容量搞大，少练几道菜也行&lt;/strong&gt;。"&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;→ 结果：早期大模型都偏小数据量训练（后来发现——其实练少了）。&lt;/p&gt;


&lt;h3&gt;
  
  
  🔹 Chinchilla（2022）反驳：
&lt;/h3&gt;

&lt;blockquote&gt;
&lt;p&gt;"不对！&lt;strong&gt;脑子和练习题要一起加&lt;/strong&gt;，模型翻倍，题也要翻倍，效果才最好。"&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;→ 用更小模型 + 多训 4 倍 token，干翻了更大的 Gopher。&lt;br&gt;&lt;br&gt;
→ &lt;strong&gt;现在业界共识基本倾向 Chinchilla：N ≈ D ∝ √C&lt;/strong&gt;&lt;/p&gt;


&lt;h2&gt;
  
  
  📉 那什么叫"缩放定律（Scaling Law）"？
&lt;/h2&gt;

&lt;p&gt;简单说就是：&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;你把 &lt;strong&gt;模型大小 / 数据量 / 算力&lt;/strong&gt; 画成对数坐标&lt;br&gt;&lt;br&gt;
→ &lt;strong&gt;测试集上的错误率会近似沿一条直线往下降&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;就像这样感觉：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;loss
 ↑
 |        /
 |      /
 |    /
 |__/___________ log(N) / log(D) / log(C)
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;⚠️ 但注意：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;只是&lt;strong&gt;经验规律&lt;/strong&gt;，不是物理定律&lt;/li&gt;
&lt;li&gt;外推容易翻车（拟合细节一变，预测差很多）&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  🔁 现实问题：好数据不够，要重复练？
&lt;/h2&gt;

&lt;p&gt;现实中高质量文本有限，只能让模型&lt;strong&gt;反复看同一批数据&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;稍微重复 → 还行&lt;/li&gt;
&lt;li&gt;大量重复 → &lt;strong&gt;背答案（过拟合），泛化变差&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;越大模型越怕重复数据&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;论文给了一些经验修正，但本质还是：  &lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;新数据 &amp;gt;&amp;gt; 旧数据多刷几遍&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;




&lt;h2&gt;
  
  
  🪤 为什么容易算错？
&lt;/h2&gt;

&lt;p&gt;拟合 scaling law 时这些都会坑你：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;算不算 embedding 参数？&lt;/li&gt;
&lt;li&gt;loss 怎么取平均？&lt;/li&gt;
&lt;li&gt;学习率调度一变，曲线就歪&lt;/li&gt;
&lt;li&gt;用几个小模型外推 → 可能差一个数量级&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;所以文章警告：&lt;strong&gt;别盲目信一张拟合直线就决定花几百万美元训模型&lt;/strong&gt;。&lt;/p&gt;




&lt;h2&gt;
  
  
  ✅ 最通俗总结
&lt;/h2&gt;

&lt;blockquote&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;AI 越大 + 数据越多 → 越好，且较规律地变好（scaling law）&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;模型和训练数据要同步放大（Chinchilla 观点胜出）&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;重复刷旧数据有损，新数据最值钱&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Scaling law 是经验工具，不是铁律，拟合要非常小心&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/blockquote&gt;










&lt;h1&gt;
  
  
  博文详细要点内容
&lt;/h1&gt;

&lt;p&gt;这篇 Lil'Log 博客文章《Scaling Laws, Carefully》系统性地梳理和批判性分析了深度学习尤其是大语言模型（LLM）中的&lt;strong&gt;神经缩放定律（Scaling Laws）&lt;/strong&gt;，并深入探讨了其拟合细节、Kaplan vs Chinchilla 之争、数据受限与重复训练下的修正，以及实践中拟合缩放定律的陷阱。&lt;/p&gt;

&lt;p&gt;下面按文章结构给你做个中文要点总结：&lt;/p&gt;




&lt;h2&gt;
  
  
  一、什么是 Scaling Law（缩放定律）
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;核心观察：&lt;strong&gt;训练损失 L 随模型参数量 N、数据量 D、计算量 C 增大，按幂律（power-law）下降&lt;/strong&gt;，在对数坐标下呈直线。&lt;/li&gt;
&lt;li&gt;典型形式：&lt;code&gt;L ∝ N^{-α}&lt;/code&gt;、&lt;code&gt;L ∝ D^{-β}&lt;/code&gt;、&lt;code&gt;L ∝ C^{-γ}&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;早期理论铺垫：Amari (1992)、Hestness et al. (2017)、Rosenfeld et al. (2020) 已在图像/NMT 等任务上观察到类似规律。&lt;/li&gt;
&lt;li&gt;作用：用小规模实验拟合 → 外推预测大模型所需 token / compute。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  二、Kaplan et al. (2020) — 早期 LLM Scaling Law
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;针对 Transformer LM，发现 test cross-entropy loss 对 N（非 embedding）、D、C 均呈幂律。&lt;/li&gt;
&lt;li&gt;联合形式：&lt;code&gt;L(N,D) = E + A/N^α + B/D^β&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;关键结论（后被质疑）&lt;/strong&gt;：在固定 compute 预算下，&lt;code&gt;N_opt ∝ C^0.73&lt;/code&gt;，即模型放大速度应快于数据 → 10x compute → ~5.5x 模型，~1.8x token。&lt;/li&gt;
&lt;li&gt;训练 FLOP 近似：&lt;code&gt;C ≈ 6ND&lt;/code&gt;（forward 2N + backward 4N per token）。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  三、Chinchilla / Hoffmann et al. (2022) — 推翻 Kaplan 的 compute-optimal 分配
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;更系统的实验（70M–16B param，5B–500B tokens），三种独立方法得到一致结果。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;核心修正&lt;/strong&gt;：&lt;code&gt;α ≈ β&lt;/code&gt; → &lt;strong&gt;模型参数量 N 与训练 token 数 D 应按同等比例缩放&lt;/strong&gt;（即 N ∝ D ∝ √C）。&lt;/li&gt;
&lt;li&gt;在同等 compute 下，比 Gopher 小 4x 但训练 4x 更多 token 的 Chinchilla (70B, 1.4T) 全面优于 Gopher (280B, 300B)。&lt;/li&gt;
&lt;li&gt;Chinchilla 认为此前大模型普遍&lt;strong&gt;训练不足（undertrained）&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  四、为什么 Kaplan 和 Chinchilla 结果不同？
&lt;/h2&gt;

&lt;p&gt;文章给出两个主要原因：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;尺度差异&lt;/strong&gt;：Kaplan 只用较小模型外推，对数-对数拟合微小偏差导致外推差距巨大。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Embedding 参数是否计入&lt;/strong&gt;：

&lt;ul&gt;
&lt;li&gt;Kaplan 不计 embedding params，Chinchilla 计总数。&lt;/li&gt;
&lt;li&gt;Pearce &amp;amp; Song (2024) 证明：小模型下 embedding 占比不可忽略，修正后在 Kaplan 的小模型区间可复现 ~0.73 指数；大尺度下收敛到 Chinchilla 的 ~0.5。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;




&lt;h2&gt;
  
  
  五、Scaling Law 为何是幂律？— 理论假说
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;数据流形维度假说&lt;/strong&gt;（Sharma &amp;amp; Kaplan 2020）：模型将 d 维数据流形划分为 O(N) 区域 → 分辨率 ∝ N^{-1/d} → 幂律。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;知识量化假说&lt;/strong&gt;（Michaud 2023, Brill 2024）：技能按幂律分布被学会 → 平滑幂律衰减。&lt;/li&gt;
&lt;li&gt;还有其他解释（谱尾、核特征值、自然语言统计特性等），尚无统一理论。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  六、数据受限 &amp;amp; 重复训练（Data-Constrained / Repeated Data）
&lt;/h2&gt;

&lt;p&gt;真实场景高质量唯一 token 有限，常需多 epoch：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Hernandez et al. (2022)&lt;/strong&gt;：少量重复数据可出现 double-descent，重复损害 OOD 和微调。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Muennighoff et al. (2023, Data-Constrained Scaling)&lt;/strong&gt;：

&lt;ul&gt;
&lt;li&gt;分解 &lt;code&gt;D = U_D × (1+R_D)&lt;/code&gt;，引入"有效数据" &lt;code&gt;D'&lt;/code&gt;，重复 token 价值按指数衰减（half-life 参数 &lt;code&gt;r_D&lt;/code&gt;）。&lt;/li&gt;
&lt;li&gt;对称处理过大模型（excess params）→ &lt;code&gt;N'&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Lovelace et al. (2026)&lt;/strong&gt;：

&lt;ul&gt;
&lt;li&gt;更大模型对重复数据更敏感 → 显式引入 &lt;strong&gt;overfitting penalty ∝ N / U_D × 重复次数&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;强 weight decay 可缓解重复数据导致的过拟合。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;两者均为经验拟合，缺乏严格理论解释。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  七、Scaling Law 拟合的实践陷阱
&lt;/h2&gt;

&lt;p&gt;看似细节却严重影响外推：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;参数计数方式（含/不含 embedding）&lt;/li&gt;
&lt;li&gt;Loss 平均方式、精度、四舍五入&lt;/li&gt;
&lt;li&gt;架构、LR schedule、batch schedule、数据混合、tokenizer 须保持一致&lt;/li&gt;
&lt;li&gt;Besiroglu et al. (2024)：重现 Chinchilla 时发现 Method 3 拟合对异常点敏感，细微处理会导致最优 N/D 偏移&lt;/li&gt;
&lt;li&gt;外推本质上脆弱——小拟合误差 → 大预测差异&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  八、一句话总结
&lt;/h2&gt;

&lt;blockquote&gt;
&lt;p&gt;这篇文章全面讲解了 LLM 缩放定律的形式与由来，&lt;strong&gt;重点对比 Kaplan(模型优先) vs Chinchilla(均衡 N≈D) 的分歧根源&lt;/strong&gt;，并扩展到数据重复/受限场景下的修正模型，最后警示 scaling law 拟合与外推在实际操作中的高度敏感性。&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;如果你对某一部分（比如 Chinchilla 推导过程、重复数据修正公式、或如何自己拟合 scaling law）想深入，我可以单独展开讲。 &lt;/p&gt;

</description>
      <category>ai</category>
      <category>deeplearning</category>
      <category>llm</category>
      <category>machinelearning</category>
    </item>
    <item>
      <title>[SAIR播客]陶哲轩：AI 时代的"证明消化不良"与竞赛新范式</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Thu, 02 Jul 2026 05:40:28 +0000</pubDate>
      <link>https://dev.to/cognitalk/sairbo-ke-tao-zhe-xuan-ai-shi-dai-de-zheng-ming-xiao-hua-bu-liang-yu-jing-sai-xin-fan-shi-1dka</link>
      <guid>https://dev.to/cognitalk/sairbo-ke-tao-zhe-xuan-ai-shi-dai-de-zheng-ming-xiao-hua-bu-liang-yu-jing-sai-xin-fan-shi-1dka</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/nbZA4N7BDCU"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="https://www.youtube.com/watch?v=nbZA4N7BDCU" rel="noopener noreferrer"&gt;https://www.youtube.com/watch?v=nbZA4N7BDCU&lt;/a&gt;&lt;br&gt;
陶哲轩这场演讲的核心内容用大白话说就是这么几件事：&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;1. 数学界现在遇到了“消化不良”&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;过去几百年，数学研究的节奏很慢。一个成果出来，要经过同行评审、反复验证、慢慢消化，最后写进教科书。整个过程就像一条顺畅的生产线。&lt;/p&gt;

&lt;p&gt;但现在AI来了，它写证明、解难题的速度飞快，像一台高速印刷机，“生产”出来的东西一下子堆满了仓库。但人类评审员根本来不及看，很多AI生成的论文质量又差，这就造成了“证明消化不良”，或者说是学术界的“交通堵塞”。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;2. 不能用老路跑新车&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;陶哲轩打了个比方：AI就像刚发明的汽车，而现在的学术期刊、会议制度，还是几百年前为马车和行人修的“石板路”。车是好车，但路太窄、太乱，人车混行，结果就是谁都动不了。光升级汽车（AI）没用，必须重新修路（改革科研基础设施）。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;3. 怎么修新路？搞竞赛！&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;他的思路是：别把AI和人类放在同一个赛道里竞争，而是给它们分别建“高速公路”和“人行道”。他牵头办的SAIR竞赛，就是两条新路。&lt;/p&gt;

&lt;p&gt;他重点介绍了其中两个比赛：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;第一个比赛：蒸馏挑战&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;  &lt;strong&gt;干什么？&lt;/strong&gt; 他们之前搞了一个包含2200万个代数判断题的超大题库。顶级AI模型虽然能做对这些题，但耗时耗钱。&lt;/li&gt;
&lt;li&gt;  &lt;strong&gt;比什么？&lt;/strong&gt; 这次比赛，他们让参赛者给一个很笨的小模型写一份“考试小抄”（一页纸的提示）。谁能让这个小模型用最少的成本，做对这2200万道题里的最多题目，谁就赢。&lt;/li&gt;
&lt;li&gt;  &lt;strong&gt;结果？&lt;/strong&gt; 目前最好的“小抄”已经把模型的正确率从50%（瞎蒙水平）提高到了80%。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;第二个比赛：逆伽罗瓦问题 / “寻蛋大赛”&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;  &lt;strong&gt;干什么？&lt;/strong&gt; 这更像一个大型“集卡游戏”或“寻宝游戏”。他们要寻找一种特殊的多项式（可以想象成不同颜色的“彩蛋”），一共有16万种颜色（对应不同的数学属性）。&lt;/li&gt;
&lt;li&gt;  &lt;strong&gt;怎么玩？&lt;/strong&gt; 参赛者需要提交自己找到的“彩蛋”。如果你找到一个别人都没找到的稀有颜色，你就得分。目的是用这种“市场竞争”的方式，摸清哪些数学对象是常见的，哪些是极其罕见的。&lt;/li&gt;
&lt;li&gt;  &lt;strong&gt;意义？&lt;/strong&gt; 以前数学靠推理，不太做实验。现在有了AI和众包，数学也能像自然科学一样做大规模实验了。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;










&lt;h1&gt;
  
  
  完整的要点如下：
&lt;/h1&gt;

&lt;p&gt;📘 &lt;strong&gt;全文总标题：陶哲轩｜数学进入 21 世纪：AI 时代的"证明消化不良"与 SAIR 竞赛新范式&lt;/strong&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第一部分 **数学两百年未变，AI 打破了传统研究生命周期&lt;/strong&gt;（约 0%–22%）**&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;教科书与黑板的"时间凝固"&lt;/strong&gt;：陶哲轩开场点题"数学正在进入 21 世纪"。左手一张 200 年前法国教材的图，方程排版数学家一眼能认——两百年来数学的外在形式几乎没变，latex 之类只是小修小补；黑板甚至成了 Jessica Win 拍成咖啡桌书的艺术题材。&lt;br&gt;
2 &lt;strong&gt;数学问题的传统生命周期&lt;/strong&gt;：一个问题从提出 → 证明被逐步生成、被理解、被消化 → 最终进教科书，现在又多了一站：喂给 AI 做训练数据。&lt;br&gt;
3 &lt;strong&gt;AI 只加速了前半段&lt;/strong&gt;：AI 在"证明生成 / 解题 / 部分验证"上跑得很快，但"消化"环节（理解、整理、体系化）没跟上，于是出现陶哲轩说的 &lt;strong&gt;proof indigestion（证明消化不良）&lt;/strong&gt; 或"数学交通堵塞"。&lt;br&gt;
4 &lt;strong&gt;瓶颈已在各处显现&lt;/strong&gt;：期刊被低质量 AI 生成论文淹没，人类审稿资源不够；一些解题网站方案堆积却没人验。结论——&lt;strong&gt;传统框架（期刊/会议）扛不住无限制的 AI 使用&lt;/strong&gt;，继续往旧基建上堆 AI 反而会挤掉人类贡献。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第二部分 **汽车与马路的类比：重写科研基础设施&lt;/strong&gt;（约 22%–42%）**&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;19 世纪末的汽车隐喻&lt;/strong&gt;：汽车刚出现时，路上只有 19 世纪那种窄石板路，人车混行、无交规、很乱。后来技术再进步（更快更省油更安全），也解决不了拥堵——因为路不对。&lt;br&gt;
2 &lt;strong&gt;数学/科学今天的位置&lt;/strong&gt;：就相当于那个"汽车跑在石板巷"的阶段。AI 是汽车，期刊会议是老路。&lt;br&gt;
3 &lt;strong&gt;出路是分层基建&lt;/strong&gt;：后来社会分出了汽车专用道、火车道、摩托车道、步行道，还有少量混合道——共存但不互踩。城市也可能"偏袒汽车"，不是完美方案，但比全混在一起强太多。&lt;br&gt;
4 &lt;strong&gt;对数学的启示&lt;/strong&gt;：保留期刊和传统研究流程的价值（"步行道"），同时&lt;strong&gt;新建能安全容纳 AI 的轨道&lt;/strong&gt;——这就是他在 SAIR（Safe AI for Research）在做的事，竞赛是其中一个 venue。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第三部分 **SAIR 竞赛之一：蒸馏挑战（Distillation Challenge）&lt;/strong&gt;（约 42%–62%）**&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;背景来自"Equation of Theories"项目&lt;/strong&gt;：两年前陶哲轩做过一个众包实验，用现代工具在代数里生成了 &lt;strong&gt;2200 万个 True/False 问题&lt;/strong&gt;（难度≈研究生一小时一题），最终全部被解决，得到一个庞大的代数数据集。&lt;br&gt;
2 &lt;strong&gt;单个问题对 AI 不难，整体结构没人知道&lt;/strong&gt;：把任意一题丢给 frontier 模型，花 30 分钟几美元算力，99% 能对——但这不告诉你数据集的"特征"是什么，能否&lt;strong&gt;浓缩描述&lt;/strong&gt;？&lt;br&gt;
3 &lt;strong&gt;赛题设计&lt;/strong&gt;：不用贵的前端模型，改用&lt;strong&gt;极便宜的开源小模型&lt;/strong&gt;（裸跑正确率 ≈ 51%，比随机好一点）。比赛让大家提交 &lt;strong&gt;一页 cheat sheet（提示页）&lt;/strong&gt;，帮这些"弱 AI"在这 2200 万题的"代数期中考"上拿分。Cheat sheet 人要能读、AI 也要能读。&lt;br&gt;
4 &lt;strong&gt;目标&lt;/strong&gt;：把 2200 万题背后的知识&lt;strong&gt;蒸馏到一页纸&lt;/strong&gt;，提炼数据集的本质。&lt;br&gt;
5 &lt;strong&gt;目前进展&lt;/strong&gt;：最优 cheat sheet 已把弱模型正确率从 50% 拉到 &lt;strong&gt;80%&lt;/strong&gt; 左右，提升 20–30 个百分点。下一阶段（仍在进行）要让弱模型不只答对错，还能&lt;strong&gt;写出证明和详细解释&lt;/strong&gt;——难得多。&lt;br&gt;
6 &lt;strong&gt;一页纸长什么样&lt;/strong&gt;：幻灯片上那张 cheat sheet 看着密，但确实编码了大量关于这类问题的信息（受一页限制，形式紧凑）。&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;注：陶哲轩说时间紧，&lt;strong&gt;跳过了第二个竞赛&lt;/strong&gt;没讲，直接讲第三个。&lt;/p&gt;
&lt;/blockquote&gt;




&lt;p&gt;&lt;strong&gt;第四部分 **SAIR 竞赛之三：逆伽罗瓦问题 / LMFDB "复活节寻蛋"&lt;/strong&gt;（约 62%–85%）**&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;合作方与数据库&lt;/strong&gt;：与 &lt;strong&gt;LMFDB（L 函数与模形式数据库）&lt;/strong&gt; 合作，LMFDB 是数论、密码学等领域核心数学对象的大库。&lt;/p&gt;

&lt;p&gt;2 &lt;strong&gt;问题通俗化：集换式卡/复活节寻蛋&lt;/strong&gt;：要找的是 22–24 次多项式（"蛋"），每个多项式有个属性叫 Galois 群（"颜色"）。一共约 &lt;strong&gt;16 万种颜色&lt;/strong&gt;，目标是每种颜色至少收集到一个多项式——即"逆伽罗瓦问题"的一个实验版：是否每种 Galois 群都可达？这是伽罗瓦理论大 open question。&lt;/p&gt;

&lt;p&gt;3 &lt;strong&gt;验证极便宜&lt;/strong&gt;：输入 24 个整数就是一道多项式，现代软件秒算它的 Galois 群"颜色"——所以单人提交、官方验证，成本很低。&lt;/p&gt;

&lt;p&gt;4 &lt;strong&gt;两阶段赛制&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;竞争阶段（正在进行）&lt;/strong&gt;：队伍提交多项式，&lt;strong&gt;不公开&lt;/strong&gt;自己的"蛋库"；某种颜色如果是某队独家首次提交 → 独得 1 分；多队撞色 → 按较复杂公式分摊分数。目的：用"市场力量"倒逼大家去找&lt;strong&gt;最难的颜色&lt;/strong&gt;（稀有蛋），而哪些难哪些易事先并不知道，要靠竞赛揭出来。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;合作阶段（还没开）&lt;/strong&gt;：竞争结束后转合作，共享数据。&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;5 &lt;strong&gt;为什么这事传统数学做不了&lt;/strong&gt;：数学一向不是实验科学，没多少 empirical data 可看"哪些 Galois 群稀有哪些常见"——AI + 众包 + 大规模计算第一次让&lt;strong&gt;实验性研究数学对象&lt;/strong&gt;成为可能。&lt;/p&gt;

&lt;p&gt;6 &lt;strong&gt;赛况与社区反响&lt;/strong&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;进度图显示有些队明显重度用 AI，暂时领先，但领先不稳——别人若复现同色就能"抢分"，榜单位置会波动（三天前的图已经不单调了，有逆袭）。&lt;/li&gt;
&lt;li&gt;代数方向的数学会议里大家都在聊这个赛，有人组私队，挺兴奋。&lt;/li&gt;
&lt;li&gt;陶哲轩特意点：&lt;strong&gt;这和传统数学家"饭碗"是正交的&lt;/strong&gt;，不是 AI 来抢活，而是开辟新能力——就像"人走路的道"和"AI 跑的道"分开，各有各的竞赛形态。&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;&lt;strong&gt;第五部分 **扩展示望：从数学走向更广的科学竞赛&lt;/strong&gt;（约 85%–100%）**&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;当前规模小&lt;/strong&gt;：三个竞赛跑在极小预算上，就几个工程师 + 一些算力。&lt;br&gt;
2 &lt;strong&gt;想放大&lt;/strong&gt;：未来希望做&lt;strong&gt;更大规模、更高算力、带高规格奖金&lt;/strong&gt;的竞赛；目前全在数学领域，因为数学"提交可验证、打分容易"是最干净的试验田。&lt;br&gt;
3 &lt;strong&gt;原则上可推广到其他科学&lt;/strong&gt;：只要有"大家想采集的大数据集"+ 能众包做的任务，就可以谈合作设赛。SAIR 近期准备发 &lt;strong&gt;formal call for proposals&lt;/strong&gt;，内部还在通过董事会邮件讨论怎么搞最好。&lt;br&gt;
4 &lt;strong&gt;收尾&lt;/strong&gt;：陶哲轩说下次会再汇报这几个赛的后续，谢幕。&lt;/p&gt;

</description>
      <category>ai</category>
      <category>computerscience</category>
      <category>machinelearning</category>
      <category>science</category>
    </item>
    <item>
      <title>Atlas Wang 对谈：符号 AI 与神经网络以及金融高频交易的 AI 化</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Mon, 29 Jun 2026 08:27:23 +0000</pubDate>
      <link>https://dev.to/cognitalk/atlas-wang-dui-tan-fu-hao-ai-yu-shen-jing-wang-luo-yi-ji-jin-rong-gao-pin-jiao-yi-de-ai-hua-41gg</link>
      <guid>https://dev.to/cognitalk/atlas-wang-dui-tan-fu-hao-ai-yu-shen-jing-wang-luo-yi-ji-jin-rong-gao-pin-jiao-yi-de-ai-hua-41gg</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/mq3QkSfrkPk"&gt;
  &lt;/iframe&gt;
&lt;/p&gt;

&lt;p&gt;&lt;a href="https://www.youtube.com/watch?v=mq3QkSfrkPk" rel="noopener noreferrer"&gt;https://www.youtube.com/watch?v=mq3QkSfrkPk&lt;/a&gt;&lt;/p&gt;

&lt;h1&gt;
  
  
  1.大白话谈播客内容说了啥
&lt;/h1&gt;

&lt;p&gt;播客里那些比较专业的内容，用大白话给你捋一遍。主要讲了三件事：&lt;/p&gt;

&lt;h3&gt;
  
  
  第一件：现在的AI大会到底变成啥样了？
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;人特别杂&lt;/strong&gt;：以前是学者交流的地方，现在挤满了投资人、猎头、销售。你随便拉个人聊天，对方可能根本不是搞研究的，而是来挖项目或者找人才的。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;好玩的在边角料&lt;/strong&gt;：主会场有时候挺无聊，真正有意思的新点子往往藏在各种小型的“研讨会”（Workshop）里。那里人少，但聊的都是最前沿、还没成型的东西，氛围纯粹。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;大佬也来摆摊&lt;/strong&gt;：像嘉宾Atlas，他既当教授又在一家叫XTX的金融公司当高管。开会时他一边要带学生展示论文，一边还得在公司展台当两天“销售”招人，忙得脚不沾地。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  第二件：嘉宾自己的核心研究——“逼”AI说出人话
&lt;/h3&gt;

&lt;p&gt;这是对话的重点。Atlas的核心思想是：&lt;strong&gt;现在的AI像个黑盒子，虽然厉害但说不清自己怎么想的。他想让AI学会用简单的公式或规则来表达自己的结论。&lt;/strong&gt;&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;为什么要这么做？&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;为了快&lt;/strong&gt;：比如让AI控制网络拥堵，如果用神经网络来做，反应慢。但把它“翻译”成一个简单的决策树（像流程图一样），速度能快几百倍。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;为了让人看懂&lt;/strong&gt;：比如让AI玩游戏，它学会了判断。但它是靠什么判断的？是看到了红色方块还是听到了声音？如果能把它学到的规则提炼成“看到红色方块就向左转”这样的符号逻辑，我们就懂了。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;他做了什么？&lt;/strong&gt;

&lt;ol&gt;
&lt;li&gt; &lt;strong&gt;理论突破&lt;/strong&gt;：他和学生从数学上证明了一个事儿——&lt;strong&gt;AI在学习过程中，确实有能力自己找到背后那个最简单的规律&lt;/strong&gt;。比如，物理学家发现万有引力公式是 ( F = G \frac{m_1 m_2}{r^2} )，这个公式非常简洁优美。Atlas证明，理论上AI也能通过“试错学习”（梯度下降）找到类似的简洁公式，而不是给出一个复杂到没人看得懂的近似函数。&lt;/li&gt;
&lt;li&gt; &lt;strong&gt;现实困境&lt;/strong&gt;：不过，目前这个证明还停留在“理论上存在这种可能性”的阶段，就像我们知道彩票大奖肯定存在，但暂时还没法保证每次都能精准刮到。要把这个理论变成一个好用的工具，还需要很长时间。&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  第三件：AI在金融领域（特别是高频交易）怎么用？
&lt;/h3&gt;

&lt;p&gt;Atlas现在工作的XTX就是一家做高频交易的顶级公司。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;他们在干什么？&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;核心任务就是&lt;strong&gt;预测股价&lt;/strong&gt;。但不是预测明天涨跌，而是预测&lt;strong&gt;未来几毫秒甚至几纳秒&lt;/strong&gt;的价格变化。他们需要分析海量的实时交易数据（价格、成交量等），从中找出微弱的信号。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;难点在哪？&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;全是噪音&lt;/strong&gt;：金融市场极其混乱，99.99%的数据都是随机波动。他们的工作就是在垃圾堆里找金子，把预测准确率从50%（猜大小）提升到50.01%。别看只多了0.01%，因为交易量巨大，这微小的优势就能带来惊人的利润。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;为什么AI适合干这个？&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;传统方法不行了&lt;/strong&gt;：过去用简单的数学模型（线性回归）就够了，但现在市场竞争激烈，必须用更先进的AI技术来捕捉更复杂的模式。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;门槛极高&lt;/strong&gt;：不像聊天机器人可以用网上公开的数据训练，高频交易用的数据是独家的、私有的，外面根本拿不到。这就形成了很强的技术壁垒。Atlas也说，金融行业可能是最后一批被AI完全攻克的堡垒之一，因为它的数据和经验积累太深厚了。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  总结一下
&lt;/h3&gt;

&lt;p&gt;这场对话的核心观点就是：&lt;strong&gt;AI的未来不只是把模型越做越大，更要让它变得可解释、有效率。&lt;/strong&gt; 嘉宾一方面在理论上探索如何让AI学会用简洁的符号（如公式）思考，另一方面又在实践中，把AI用在了对速度和精度要求极高的金融交易里，并认为这个领域对AI研究者来说是一片充满机遇的蓝海。&lt;/p&gt;










&lt;h1&gt;
  
  
  2.播客里哪里聊了"符号神经网络 / Neuro-symbolic AI"
&lt;/h1&gt;

&lt;p&gt;播客里聊"符号神经网络 / Neuro-symbolic AI"主要集中在 &lt;strong&gt;第（三）部分（约全文 22%–52% 那一段）&lt;/strong&gt;，也就是 Atlas 讲自己研究主线那段，核心是从"低维压缩"滑到"把 NN 压成符号"的那条线。具体节点给你标一下：&lt;/p&gt;




&lt;h3&gt;
  
  
  📍 入口：Alan 追问"符号 NN 到底是什么、为什么要 care"
&lt;/h3&gt;

&lt;p&gt;Atlas 刚提完他那篇 theory paper（NN 用梯度下降可证明学符号方程），Alan 拦了一下让回退一步：&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;"What does it mean actually like symbolic neural network, how you actually look why we need to care about it?"&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Atlas 的回答是&lt;strong&gt;整个符号线的大框架&lt;/strong&gt;——逻辑、规则、关联关系本来就能用符号写；他眼里的"终极压缩"不是把 NN 蒸馏成更小的 NN（pruning / low-rank / MoE 那种 10x–100x），而是&lt;strong&gt;把 NN 压成非 NN 的形式，能写进教科书的人可读知识&lt;/strong&gt;。这一段是整段符号论的"总纲"。&lt;/p&gt;




&lt;h3&gt;
  
  
  📍 关联规则 / Apriori 怀旧（Alan 接话）
&lt;/h3&gt;

&lt;p&gt;Alan 说自己入门 ML 就是啃 Apriori 和关联规则挖掘，还举了 Target 孕期预测那个经典（apocryphal）故事。这里其实是 &lt;strong&gt;symbolic AI 的老祖宗方向&lt;/strong&gt;被顺带捞出来对照——现在 NN 时代把无监督/聚类/降维贬低了，但 SAM（Segment Anything）那种"图像自动按语义切"本质上还是当年那条路的延伸。Atlas 接了一句"关联记忆（associative memory）每天都在用"，算是点头认了这条血脉。&lt;/p&gt;




&lt;h3&gt;
  
  
  📍 实用动机两段（Atlas 自述做符号的"功利心"）
&lt;/h3&gt;

&lt;p&gt;Alan 问"practically 你想干嘛"，Atlas 给了两个落地：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;效率&lt;/strong&gt;：把 RL 控网络拥塞转成决策树，&lt;strong&gt;CPU 上 400–500× 加速&lt;/strong&gt;——比任何 NN 压缩都狠。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;可解释性&lt;/strong&gt;：Open Gym 简单视觉环境里，把 CNN-based RL 转成符号树，自动把色块 grounding 成物体再用逻辑算子组合，类似"中间层视觉"的自动分割。Atlas 自己承认复杂场景 scaling 不行（只在 Minecraft 类简单环境玩过）。&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;这两段是 &lt;strong&gt;symbolic NN 的"实证分支"&lt;/strong&gt;——NN → 符号树/决策树，能跑能解释。&lt;/p&gt;




&lt;h3&gt;
  
  
  📍 理论那段（整集最"硬"的一块）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;牛顿第二定律 1/r² 的例子&lt;/strong&gt;：如果牛顿今天拿 NN 去 fit 引力数据，NN 大概率吐不出干净的 1/r²，只会给个 messy 近似——因为 NN 的归纳偏置里没有"学干净紧凑方程"这一项。这是&lt;strong&gt;为什么需要符号学习的motivation 例子&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;他们做的理论&lt;/strong&gt;：合成数据学多项式，假设数据生成过程带代数结构（群、环），用梯度流的测度空间分析，证出&lt;strong&gt;梯度下降确实能让 NN 精确收敛到 underlying 符号结构&lt;/strong&gt;——连续动态够到离散目标。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Caveat&lt;/strong&gt;：Atlas 自己坦白，目前是&lt;strong&gt;存在性证明不是构造性证明&lt;/strong&gt;——类比 lottery ticket（知道初始化某处存在那张票，但不知道怎么直接拎出来）。离"不经 over-parameterized 训练直接拿到符号方程"这个 holy grail 还有距离。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  📍 后面还有两段"广义 neuro-symbolic"的延伸，不算核心但有关
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Alan 举的偏方&lt;/strong&gt;：让 LLM 自己生成 anti-spam 的 if-else 规则决策树，极便宜可解释。Atlas 评：这本质是把信仰压在 model alignment 上，但&lt;strong&gt;让 LLM 产符号、再接 domain 的 symbolic checker（比如合规校验 → DPO 反馈循环）&lt;/strong&gt;，广义上也算 neuro-symbolic，他们组也做过。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;JEPA / world model 那段&lt;/strong&gt; Rabbit 问的时候，Atlas 提了一句"JEPA + MPC 那套漂亮，和 Koopman operator 也深连"——Koopman 那条本质是&lt;strong&gt;把非线性动态映射到线性符号空间&lt;/strong&gt;，也算符号谱系里的亲戚，但 Atlas 没展开，只说 JEPA 不是万能解。&lt;/li&gt;
&lt;/ol&gt;




&lt;p&gt;所以严格意义上的"符号神经网络"主菜就是 &lt;strong&gt;第（三）部分那段从 Alan 追问定义 → 实用两段 → 牛顿例子 → 理论证明 → caveats&lt;/strong&gt;，大概占全文近三分之一。后面 LLM 自产规则 + JEPA 是边角延伸，如果想抠"NN 怎么学到离散符号结构"这一脉，主菜那段就够了。&lt;/p&gt;










&lt;h1&gt;
  
  
  3. XTX Markets 这家公司的起源与发展历史
&lt;/h1&gt;

&lt;p&gt;XTX Markets 这家公司挺有意思的——它是 &lt;strong&gt;2015 年才从 GSA Capital 分拆出来的"青年军"，但现在已经做到外汇做市全球前三、英国纳税第一名&lt;/strong&gt;，而且全程没拿外部投资，靠的全是自研算法。下面把它的来龙去脉给你串一下。&lt;/p&gt;




&lt;h2&gt;
  
  
  🧑🎓 创始人：Alex Gerko，俄裔数学博士
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;莫斯科国立大学数学博士，原本打算走学术路线，但自觉成不了"世界级知识分子"，转去工业界。&lt;/li&gt;
&lt;li&gt;先到伦敦 &lt;strong&gt;德意志银行&lt;/strong&gt; 做量化，后来跳槽 &lt;strong&gt;GSA Capital&lt;/strong&gt;（一家从德银分拆出来的英国量化对冲基金），在 GSA 一手搭起了外汇交易部门，再扩展到别的资产类别。&lt;/li&gt;
&lt;li&gt;但他更愿意把交易利润 reinvest 回业务，而不是分给外部投资人——这和 GSA 的利益不一致，于是谈分拆。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  🏗️ 2015：XTX 诞生
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;2015 年 1 月 30 日&lt;/strong&gt; 在伦敦注册成立，团队就是从 GSA 带出来的一小撮交易员加一点启动资金，是 GSA 的 spin-off。&lt;/li&gt;
&lt;li&gt;名字 &lt;strong&gt;XTX&lt;/strong&gt; 取自线性回归里的符号（XᵀX，没错就是那个矩阵转置乘矩阵），数学味拉满，也很符合创始人的博士审美。&lt;/li&gt;
&lt;li&gt;联合 CEO 是 Zar Amrolia（前德意志银行外汇主管），和 Gerko 搭班子。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  📈 成长路径：从外汇做市切银行的蛋糕
&lt;/h2&gt;

&lt;p&gt;XTX 做的事叫 &lt;strong&gt;non-bank liquidity provider / 电子做市商&lt;/strong&gt;——简单说就是不靠银行柜台，用算法在外汇、股票、债券这些市场挂买卖单，吃价差（spread），同时给市场提供流动性。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;2016&lt;/strong&gt;：Euromoney 全球外汇流动性提供商榜单 &lt;strong&gt;第 9 名&lt;/strong&gt;，市场份额 3.87%——&lt;strong&gt;这是历史上第一次非银行机构挤进前十&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;2018&lt;/strong&gt;：冲到 &lt;strong&gt;全球第 3&lt;/strong&gt;，非银第一，把一堆老牌投行（花旗、摩根大通、瑞银这些）都超了。&lt;/li&gt;
&lt;li&gt;切的是什么蛋糕？传统外汇场外交易是伦敦金融城那些大投行交易台主导的，"知道该打给谁"很重要；XTX 用算法+机器学习把这块"关系型生意"变成了"预测型生意"，银行的人海战术打不过它的延时和模型。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  🌐 业务扩张：从 FX 到全覆盖
&lt;/h2&gt;

&lt;p&gt;最早只做外汇 OTC，后来一路往外扩：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;外汇&lt;/strong&gt;（基本盘，全球 Top 3）&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;股票 / 固收 / 商品 / 加密&lt;/strong&gt;——现在官网说自己覆盖 &lt;strong&gt;5 万+ 金融工具&lt;/strong&gt;，每日交易量约 &lt;strong&gt;1120 亿美元&lt;/strong&gt;（第三方媒体口径更高，说 2500 亿）&lt;/li&gt;
&lt;li&gt;Atlas Wang 那条线（UT Austin 教授 + XTX 研究总监）就是这时候进的——公司要从"外汇做市"升级到"多资产时序基础模型"，所以需要搞大模型的人。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  💰 几个"出圈"的数据点
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;人员极精简&lt;/strong&gt;：大约 250 名员工跑 2500 亿日均交易量，不雇传统交易员，全员算法+研究+开发。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Gerko 持股 75%&lt;/strong&gt;，无外部投资人，利润归合伙人间分，所以滚雪球极快。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;AI 基建狠&lt;/strong&gt;：研究集群 &lt;strong&gt;11,000 张 GPU、309 PB 存储&lt;/strong&gt;；2025 年宣布在 &lt;strong&gt;芬兰砸 10 亿美元自建数据中心&lt;/strong&gt;（不是租，是自己盖 5 座里的第一座），因为算力就是它的生产资料。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;2025 年营业利润 23 亿美元&lt;/strong&gt;，Gerko 个人交了 &lt;strong&gt;6.6 亿英镑所得税，英国纳税王&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;慈善&lt;/strong&gt;：2020 起承诺捐 2.5 亿英镑，重点砸数学教育（资助低收入背景学生读数学/PhD、加速突破研究），和他自己的背景呼应。&lt;/li&gt;
&lt;/ul&gt;




&lt;h2&gt;
  
  
  🇷🇺➡️🇬🇧 一些八卦
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;Gerko 俄裔，但已放弃俄罗斯公民身份，&lt;strong&gt;给乌克兰捐了几千万英镑&lt;/strong&gt;——俄乌战争后这个立场在俄裔金融圈里挺显眼。&lt;/li&gt;
&lt;li&gt;公司总部伦敦，办公室挂阿波罗 11 号复刻模型，Gerko 个人审美偏"硬核理工浪漫"。&lt;/li&gt;
&lt;li&gt;和 Citadel Securities、Jump Trading 这类美国非银做市商并列，但 XTX 的特点是&lt;strong&gt;更偏欧洲根基 + 更重机器学习预测而不是纯速度军备竞赛&lt;/strong&gt;——这也是为什么 Atlas 那期播客里他说"我们不做那种比谁光纤短的 game，我们比的是预测准不准"。&lt;/li&gt;
&lt;/ul&gt;










&lt;h1&gt;
  
  
  4.播客的完整内容要点
&lt;/h1&gt;

&lt;p&gt;根据这期《Information Bottleneck》播客 EP19（嘉宾 Atlas Wang，UT Austin 教授 / XTX 研究总监）的文字稿，按话题流转与 token 占比（粗略估算时间百分比）切分如下，并附整文总标题。&lt;/p&gt;




&lt;h2&gt;
  
  
  整文总标题
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;「EP19｜Atlas Wang 对谈：NeurIPS 现场观察、符号 AI 与神经网络可证明学方程，以及金融高频交易的 AI 化」&lt;/strong&gt;&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第（一）部分　开场寒暄与嘉宾介绍（约 0% – 4%）&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;嘉宾身份与互相调侃&lt;/strong&gt;：Rabbit 和 Alan 介绍本期嘉宾 Atlas Wang——UT Austin 教职、XTX 研究总监、常住纽约，也是两人好友。Atlas 开玩笑回应“special guest”到底特殊在哪：UT 教职 / XTX 研究总监 / 好友 / 住纽约，四人笑称“mostly 是好友”。&lt;br&gt;
2 &lt;strong&gt;纽约冷天与线下聚首&lt;/strong&gt;：Alan 补一句很高兴和两位在同一个城市（纽约），一起在极冷的天气里“瑟瑟发抖”，顺便提到上次 NeurIPS 只简短聊过，这次借播客把对那场会议的看法合一下。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第（二）部分　NeurIPS San Diego 参会体验与会议生态观察（约 4% – 22%）&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;Atlas 的双身份参会视角&lt;/strong&gt;：Atlas 以“学术 + 工业”双重帽子参会——带学生去投海报，同时 XTX 是铂金赞助商，他在展台站了两天见人。感觉比纯学术累，但圣地亚哥的暖气和“生成式 AI × 金融”的热度都让他印象深刻。&lt;br&gt;
2 &lt;strong&gt;Alan 的三个观感&lt;/strong&gt;：① 高兴看到不少 LLM sampling 研究（自己公司 Thoughtworks 在做 sampling lab，想挖人）；② 狂吐槽官方 App Hoova 做得烂，功能远不如 NeurIPS 2024，导致他反而被迫多线下问路、看电子屏，体验倒退；③ 圣地亚哥很美，加州人意外地松弛，workshop 质量不错，人多总体是好事，只要不稀释投稿质量。&lt;br&gt;
3 &lt;strong&gt;NeurIPS 非研究者比例更高的现象&lt;/strong&gt;：Alan 指出 NeurIPS 比 ICLR 更吸引非研究者，“随便抓一个人有 paper 的概率更低”，有时想跟 researcher 吃饭却被 VC 包围。Atlas 接话：自己其实不讨厌——XTX 本身有 VC 团队，而且他纽约飞圣地亚哥的航班上邻座就是 VC，对方能报出 Atlas 好几篇 paper 标题，学生都不一定记得住，Atlas 表示受宠若惊。&lt;br&gt;
4 &lt;strong&gt;VC 读 paper 的动机&lt;/strong&gt;：VC 每天刷 archive / Google Scholar 是为了在“好钱坏钱”里做判别，难度不亚于审稿人选 paper，所以 Atlas 对“更广的圈子在读我们 paper”这件事反而没那么 sarcastic。&lt;br&gt;
5 &lt;strong&gt;会议性质的混合与 workshop 的价值&lt;/strong&gt;：三人讨论“会议到底该是什么”——传统是 peer 交流，现在混了招聘、VC 扫人、公司品牌。Atlas 个人把 NeurIPS 当“一次性低成本见朋友”的旅行，学术上新作基本会前 6 个月就知道了。他更偏好 workshop：main conf 利益绑定太多（作者/审稿人互 pressure），workshop 更纯，敢放 half-baked 的前沿想法。&lt;br&gt;
6 &lt;strong&gt;workshop 的“旱涝不均”&lt;/strong&gt;：Alan 举去年 Yosua Bengio 组织的 Pluralism &amp;amp; Creativity workshop（还请了《Arrival》作者 Ted Chiang），房间塞了 700-800 人消防局得来管；但他自己去的 stochastic sampling workshop（P@k 解码相关，min-p 后续）满打满算 50 人。同是 workshop，流量天差地别。&lt;br&gt;
7 &lt;strong&gt;小房间≠低回报&lt;/strong&gt;：Atlas 补自己今年也 co-organize 了“生成式 AI for Finance”workshop，同样爆满；但他更珍惜优化 workshop 那种“15 个人全懂你工作”的小房间——signal-to-noise 才是关键。他也顺带提了自己今年在组织这一方向。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第（三）部分　Atlas 的研究主线：从低维压缩到符号 AI（约 22% – 52%）&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;PhD 背景与“低维”情结&lt;/strong&gt;：Atlas PhD 做统计/信号处理/优化，第一个方向是 compressive sensing，后来做低秩、流形，再后来发现大家全跑去 deep neural network 了只好跟进，但惊喜地发现 over-parameterized NN 里反而有更多机会实践低维理解——pruning、lottery ticket、低秩、MoE 都是例子。&lt;br&gt;
2 &lt;strong&gt;最近一年最喜欢的 paper（偏理论）&lt;/strong&gt;：标题大概是“NN 如何被梯度下降可证明地学习到符号方程”。现有深度学习理论大多证梯度动态会把 NN 推向稀疏/低秩/低熵这类结构化解，但从连续动态到“离散符号结构学习”的 gap 一直没 closing。&lt;br&gt;
3 &lt;strong&gt;为什么关心“符号化”&lt;/strong&gt;：Alan 帮听众追问——符号 NN 到底是什么、为什么要 care。Atlas 答：逻辑、规则、关联关系本就可以用符号写；他眼里的“终极压缩”不是把 NN 蒸馏成更小的 NN（low-rank / sparse / pruning 顶多压 10x–100x），而是把 NN 压成&lt;strong&gt;非 NN 的形式——可写在教科书上的人类药物知识&lt;/strong&gt;，那才是最优压缩。人类可读的符号语言 = 最终形态。&lt;br&gt;
4 &lt;strong&gt;关联规则挖掘的怀旧&lt;/strong&gt;：Alan 接话提到自己入门 ML 就是 Apriori 和关联规则挖掘，Target 孕期预测那个经典（apocryphal）故事，觉得“降维/无监督/聚类”被 NN 时代不公平地贬低了。举 SAM（Segment Anything）为例——理想的图像聚类就该像 SAM 那样把图按语义切。人类婴儿早期基本是 unsupervised（苹果≠玻璃杯），Alan 家一岁娃天天在验证这点。&lt;br&gt;
5 &lt;strong&gt;Atlas 的“实用 → 理论”回答&lt;/strong&gt;：先讲实用动机——&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;效率&lt;/strong&gt;：把 RL 控网络拥塞转成决策树，CPU 上直接 400–500× 加速，比任何 NN 压缩算法都狠；&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;可解释性&lt;/strong&gt;：在 Open Gym 简单视觉环境里把 CNN-based RL 转成符号树，自动把色块 grounding 成物体再做逻辑组合，类似“中间层视觉”的自动分割。Atlas 承认这玩意复杂视觉场景 scaling 不好（只在 Minecraft 类简单环境玩过），但证明了 NN 学的其实是“感知模块 + 可组合逻辑”。
6 &lt;strong&gt;同行工作&lt;/strong&gt;：Flatiron、剑桥的 Milk 组也在做符号回归，大家方向一致。
7 &lt;strong&gt;理论部分的动机——牛顿第二定律的例子&lt;/strong&gt;：Atlas 用高中时的疑问类比：为什么引力是 1/r² 不是 1/r^{2.015}？物理 PhD 可以从积分推出，但如果牛顿今天拿 NN 去 fit，NN 大概率吐不出干净简洁的 1/r²，只会给个 messy 的近似——因为 NN 的归纳偏置里没有“学干净紧凑方程”这一项，而“干净”本身又是很强的人类先验。
8 &lt;strong&gt;他们做的理论工作&lt;/strong&gt;：从合成数据学多项式起步，假设数据生成过程带代数结构（群、环），用梯度流的测度空间分析等工具，证出&lt;strong&gt;梯度下降确实能让 NN 精确收敛到 underlying 的符号结构&lt;/strong&gt;——连续动态够到离散目标，这件事 Atlas 自己很兴奋。
9 &lt;strong&gt;理论的 caveats&lt;/strong&gt;：Alan 追问后 Atlas 坦白——目前是&lt;strong&gt;存在性证明&lt;/strong&gt;，不是构造性证明（类比 lottery ticket：知道初始化的某处存在那张票，但不知道怎么直接拎出来）。离“不经过 over-parameterized 训练直接拿到符号方程”这个 holy grail 还有距离。&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;&lt;strong&gt;第（四）部分　推理、数据、架构收敛的延伸讨论（约 52% – 65%）&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;Reasoning / CoT 是不是必经之路&lt;/strong&gt;：Rabbit 追问——chain-of-thought / reasoning model 这一类，长期看是 essential 还是只是当前局部最优？Atlas 答得松：不确定 RL-style reasoning 在“数据足够好”的前提下是不是必须。所有算法都是在高维数据空间里 search，架构/优化只是给一个好的 inductive bias 让 search 起点暖一点；如果目标分布采样够好，纯随机 search 也许也能到。他在 XTX 做大模型训练后，信念从“精雕算法”往“问题设定 + 数据分布”挪了——后者带来的性能提升更猛。&lt;br&gt;
2 &lt;strong&gt;Alan 举的“让 LLM 自己生成 anti-spam 决策树”的偏方&lt;/strong&gt;：prompt 模型产出关键词/if-else 式规则，得到可解释极便宜的分类器，效果不差。问 Atlas 怎么看。Atlas 答：这本质是把信仰压在 model alignment 质量上——让 LLM 自己产符号，广义上也算 neuro-symbolic AI（语言本身是符号，可接 domain 的 symbolic checker）。他们组也做过让 LLM 提 plan → 送合规 checker → DPO 反馈循环的方向。&lt;br&gt;
3 &lt;strong&gt;JEPA / world model 插曲&lt;/strong&gt;：Rabbit 问 JEPA（Yann LeCun 那条线）和“内部状态随时间演化”是不是也算某种符号模型的近亲。Atlas 说 JAPA（应为 JEPA）那套 MPC + JEPA 表示结合很漂亮，和 Koopman operator（他感兴趣的 NN 动态方向）也深连，但不觉得 JEPA 是 deep learning 所有问题的通用解——每算法都得 assume 点什么，“所有模型都错，有些有用”，JEPA 属于 useful 那一档。&lt;br&gt;
4 &lt;strong&gt;架构会不会收敛&lt;/strong&gt;：Rabbit 再问——是不是“数据够好一切算法都会收敛到同类解”。Atlas 答 yes and no：NN 是 universal approximator 90 年代就知道了，但后面 30 年还是出了 ResNet、Transformer、Fast RNN（刚得 test of time award）——理论上能学到 ≠ 实验上能训出来，优化稳定性、超参、架构对 DDP/FSDP 的友好度这些“彩票式设计选择”在过去 DL 进展里占比不成比例。所以他做研究（尤其工业侧）不再宗教化“算法对错”，只看“当前生态下合不合适”。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第（五）部分　合成数据、金融（高频交易）场景落地（约 65% – 82%）&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;Alex Dimakis 那篇“少问题多答案更好”的梗&lt;/strong&gt;：Rabbit 提到 Berkeley 的 Alex Dimakis 观察到——标 1 万道题每道 1 答，vs 500 道题每道 2 答，后者训出来更好，mix of question-info / answer-info 的相互作用很怪。Atlas 说第一次听这个具体例子但能 buy——联想到 Dimakis 另一篇“只用 1 道题做 RL 让模型换不同方式反复解、自我改进”的 paper，挺 inspire。&lt;br&gt;
2 &lt;strong&gt;高中刷题的类比&lt;/strong&gt;：Atlas 拿自己高中数学老师的话类比——老师不让狂刷不同题，让盯一本选集同一道题反复做、做出比标准答案更好的解法。“反复嚼一道题”比“尝一口就换菜”榨出的信息价值更高，所以“深 &amp;gt; 广”在某些 regime 成立。&lt;br&gt;
3 &lt;strong&gt;合成数据是少数领域的奢侈品&lt;/strong&gt;：Atlas 框定——语言/视觉/语音（他不搞语音）才有，因为这些域判别式模型先走通了（ImageNet 最初不是为生成建的，LiDAR 最初为 caption，都不是生成），攒够了高质量判别数据，才能走到生成、才能谈合成数据。而&lt;strong&gt;高频交易是他现在待的“非常不幸的域”&lt;/strong&gt;——生成模型还生成不了真实股票市场，谁搞出来可以找他聊。&lt;br&gt;
4 &lt;strong&gt;高频交易的问题定义&lt;/strong&gt;：最典型 entry-level quant 题是多时序预测——输入交易所 tick 级价/量/成交/元数据，多股票联合，预测未来一小段 horizon 的价或方向。y = f(x)，古典定义。&lt;br&gt;
5 &lt;strong&gt;难在哪&lt;/strong&gt;：数据不缺（交易所每秒 tick 涌过来），缺的是&lt;strong&gt;高质量信号&lt;/strong&gt;——不是机械/传输错误，是市场本身噪声主导，“预测噪声里的噪声”，散户想 beat 市场极难（S&amp;amp;P 是强风险中性基线）。quant 拼的是把准确率做到“略高于零”，但高频每天/每年交易量天文数字，&lt;strong&gt;大数定律把微小 margin 放大成真金白银&lt;/strong&gt;——这就是他们干的。&lt;br&gt;
6 &lt;strong&gt;多主体博弈&lt;/strong&gt;：Rabbit 问是不是因为“即使信息全也不 deterministic”。Atlas 确认——市场是多主体博弈，analytical solution 不可能；高频因为 horizon 短，理论上“别人来不及 plot against 你”，但近几年也未必了，细节不多谈。&lt;br&gt;
7 &lt;strong&gt;生成式 AI 进金融的真实趋势&lt;/strong&gt;：Alan 补——金融圈过去模型保守（线性回归/Lasso/树），现在确实在往 ML 前沿靠。XTX 这类已经吃到生成式 AI 红利，所以趋势真。不同金融细分用法不同：有的用 LLM 自动化 workflow，有的用 foundation model 爬社媒做 sentiment（alternative data），XTX 这种是自己建&lt;strong&gt;时序基础模型&lt;/strong&gt;——不是符号语言 FM，是数值连续流时序 FM。&lt;br&gt;
8 &lt;strong&gt;“说服金融人只能靠年化收益，不能靠 paper”&lt;/strong&gt;：Atlas 点透——这点和 tech 不一样，金融动态滞后于 tech 平滑，但已经有成功案例（年化跑出来），所以会继续投，部分会成。&lt;/p&gt;




&lt;p&gt;&lt;strong&gt;第（六）部分　招聘画像、AI 研究建议与收尾（约 82% – 100%）&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;1 &lt;strong&gt;Quant 招聘画像的变化&lt;/strong&gt;：过去经典画像 = 数学/物理 PhD。现在 frontier 金融 AI 公司（他造的词）的 hiring bar 越来越对齐 frontier AI lab——候选人池里天天有人拿着 OpenAI / Gemini offer 来面。但金融侧还剩一个独特偏好：&lt;strong&gt;数学+统计底子&lt;/strong&gt;，比如“抛 1000 次硬币”类问题还是会考，因为时序数据太噪，从 clean 语言 FM 桥到 noisy 非结构时序，中间很多数学变换要做。&lt;br&gt;
2 &lt;strong&gt;“会写代码的数家，或会说数学的工程师”&lt;/strong&gt;：这是他们组（原话是团队 slogan 不是他原创）的 motto，两句话说的是一个意思。&lt;br&gt;
3 &lt;strong&gt;学位焦虑插曲&lt;/strong&gt;：Rabbit 扯到“AI 会写代码了，将来还要不要学线性代数/微积分”——他自己仍信过去 30 年“越 mathy 越好”是对的，但纯 AI/ML 研究未来是不是还这样不确定。Alan 抖机灵“赶紧去考水管工执照”，因为蓝领体力活比很多工种抗 AGI 时间长——引战到 munition 替代士兵比水管工容易。Atlas 补一句：金融也属于“公开模型难渗透私有数据积累”的域，几十年私有数据战争 public knowledge 盖不住，这也是金融 AI 的护城河。&lt;br&gt;
4 &lt;strong&gt;Gemini / GPT / DeepSeek 拿真钱账户交易两个月比赛怎么看&lt;/strong&gt;：Alan 问，Atlas 答“我不会放自己钱进去”，笑过。&lt;br&gt;
5 &lt;strong&gt;Atlas 为什么选 XTX 不选 LM foundation lab&lt;/strong&gt;：他自认聪明人，进 LM lab 有人带也能学会 pre/post-training；但进 XTX 是“全世界可能几十个人知道怎么把这事做起来”的位置——独特数据 + 充足 GPU + 人才密度，他喜欢研究路径的 uniqueness。劝新 grad 认真看金融 AI 这条线：① 已经有人证了能赚钱，所以 AI 在金融的爆炸会来；② 给钱“reasonably or unreasonably well”；③ 相比 tech 可能 work-life balance 还好点。&lt;br&gt;
6 &lt;strong&gt;WLB 尾巴&lt;/strong&gt;：Rabbit 说以后可以单聊 WLB，有些公司真懂有些灾难，但年轻人被文化推着卷 20 小时/天也不一定出更好结果。Atlas 看他毕业 PhD 的小样本——有人活得开心有人社交蒸发，vesting schedule 祝大家好运。&lt;br&gt;
7 &lt;strong&gt;收尾&lt;/strong&gt;：互谢，Atlas 说聊完反而 energized，会把那篇符号 paper 甩他们。bye。片尾有段乱入的 “Hey Heat” 应该是录音室彩蛋/切错轨，忽略。&lt;/p&gt;

</description>
      <category>ai</category>
      <category>deeplearning</category>
      <category>machinelearning</category>
      <category>performance</category>
    </item>
    <item>
      <title>[IBM-Tech] 提示词恶意软件杀伤链（The Promptware Kill Chain）剖析</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Mon, 29 Jun 2026 02:38:57 +0000</pubDate>
      <link>https://dev.to/cognitalk/ibm-tech-ti-shi-ci-e-yi-ruan-jian-sha-shang-lian-the-promptware-kill-chainpou-xi-3hed</link>
      <guid>https://dev.to/cognitalk/ibm-tech-ti-shi-ci-e-yi-ruan-jian-sha-shang-lian-the-promptware-kill-chainpou-xi-3hed</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/K68sqG18270?start=1"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="https://www.youtube.com/watch?v=K68sqG18270&amp;amp;t=1s" rel="noopener noreferrer"&gt;https://www.youtube.com/watch?v=K68sqG18270&amp;amp;t=1s&lt;/a&gt;&lt;br&gt;
这视频主要讲述了 IBM 杰出工程师 Jeff Crume 介绍的一种新型安全威胁：&lt;strong&gt;提示词恶意软件杀伤链（The Promptware Kill Chain）&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;传统的恶意软件（如勒索软件、间谍软件）通常是恶意代码，而 &lt;strong&gt;Promptware&lt;/strong&gt; 则是一种全新的恶意软件执行模型，它是通过向生成式 AI 聊天机器人或智能体（Agent）输入恶意的“提示词”来驱动的。视频中引述了 Bruce Schneier 等人的研究，将这种攻击提炼为了一个完整的、步步渗透的“杀伤链”：&lt;/p&gt;




&lt;h3&gt;
  
  
  🛡️ Promptware 杀伤链的 7 个阶段
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;初始访问（Initial Access）&lt;/strong&gt; &lt;code&gt;[00:00:57]&lt;/code&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;直接注入&lt;/strong&gt;：攻击者直接在对话框向 AI 输入指令，改变其上下文（例如让它开始说假话）。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;间接注入&lt;/strong&gt;：攻击者将恶意指令藏在网页、邮件、日历邀请甚至图片中。当 AI 被派去读取这些内容时，就会被暗中控制。&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;根本缺陷&lt;/strong&gt;：传统计算机代码和数据是分离的；但大语言模型没有这个边界，所有内容都被视为 Token，导致恶意指令可能获得与系统命令同等的权威。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;权限提升 / 越狱（Privilege Escalation / Jailbreaking）&lt;/strong&gt; &lt;code&gt;[00:02:46]&lt;/code&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;攻击者利用社会工程学、角色扮演或对抗性提示词，诱骗 AI 绕过安全对齐限制。由于 AI 模仿人类智能，它也继承了人类“轻信”的弱点（例如，直接问怎么做炸弹会被拒绝，但伪装成化学系学生问“哪些东西不能混在一起免得爆炸”，AI 就可能中招）。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;侦察（Reconnaissance）&lt;/strong&gt; &lt;code&gt;[00:04:18]&lt;/code&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;与传统网络攻击先侦察后下手不同，Promptware 往往在“越狱成功”后才进行侦察。AI 会被操控去主动暴露自己的攻击面，透露自己连接了哪些 API、插件、系统以及拥有什么权限。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;持久化（Persistence）&lt;/strong&gt; &lt;code&gt;[00:05:03]&lt;/code&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;正常的对话是即时且短暂的，但现在的 AI Agent 拥有长期记忆（如 RAG 数据库、聊天记录、日历等）。攻击者一旦将恶意提示词植入到这些长期存储中，AI 每次读取这些数据时都会“自我重新感染”，从而达到持久控制的目的。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;命令与控制（Command &amp;amp; Control / C2）&lt;/strong&gt; &lt;code&gt;[00:05:59]&lt;/code&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;攻击者可以利用 AI 的联网功能作为 C2 通道。这让 Promptware 从死板的威胁变成了可远程控制的动态威胁（例如，AI 连网获取外部内容时，顺便带回了攻击者更新的恶意指令）。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;横向移动（Lateral Movement）&lt;/strong&gt; &lt;code&gt;[00:06:53]&lt;/code&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;当人们赋予 AI Agent 读写邮件、修改日历、访问企业系统甚至控制智能家居的权限时，也就等于为恶意软件修好了高速公路。受感染的邮件 Agent 可能会像传统的电脑病毒一样，把带有恶意注入的代码自动转发给所有联系人，实现自我复制和扩散。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;实际破坏（Action on Objective）&lt;/strong&gt; &lt;code&gt;[00:08:10]&lt;/code&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;这是攻击者的终极目的，表现形式与传统恶意软件无异，包括：数据窃取、金融欺诈（如转走加密货币）、或者在 AI 拥有代码执行权限时运行任意恶意代码。&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;




&lt;h3&gt;
  
  
  🛑 我们该如何应对？
&lt;/h3&gt;

&lt;p&gt;Jeff Crume 强调，&lt;strong&gt;提示词注入在架构上是无法根除的&lt;/strong&gt;，这不是厂商发个补丁就能修好的小漏洞。&lt;/p&gt;

&lt;p&gt;因此，我们必须采用 &lt;strong&gt;零信任（Zero Trust）&lt;/strong&gt; 的架构和思维方式：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;假定突破已发生&lt;/strong&gt;：默认坏人已经进入了系统。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;打破杀伤链&lt;/strong&gt;：在杀伤链的每一个环节进行防御。不要将 AI Agent 视为“值得信任的助手”，而要将其视为“不可信的、带有敌意的运行环境”。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;具体手段&lt;/strong&gt;：严格限制权限提升、约束工具和 API 的访问权限、检测持久化存储中的异常、限制 AI 的高危行为。&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>ai</category>
      <category>cybersecurity</category>
      <category>llm</category>
      <category>security</category>
    </item>
    <item>
      <title>从SGLang、vLLM的异同推演未来AI演化</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Fri, 26 Jun 2026 10:40:00 +0000</pubDate>
      <link>https://dev.to/cognitalk/cong-sglang-vllmde-yi-tong-tui-yan-wei-lai-aiyan-hua-5d37</link>
      <guid>https://dev.to/cognitalk/cong-sglang-vllmde-yi-tong-tui-yan-wei-lai-aiyan-hua-5d37</guid>
      <description>&lt;h1&gt;
  
  
  i SGLang vs vLLM 2026–2027 发展规划：异同完整对比
&lt;/h1&gt;

&lt;h2&gt;
  
  
  一、两大框架&lt;strong&gt;共同长期目标（相同点）&lt;/strong&gt;
&lt;/h2&gt;

&lt;p&gt;两者底层大方向高度趋同，都是面向超大规模生产推理、统一硬件生态、统一分布式架构：&lt;/p&gt;

&lt;h3&gt;
  
  
  1. 分布式架构统一路线：PD分离（Prefill-Decode Disaggregation）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;都将&lt;strong&gt;PD分离&lt;/strong&gt;作为集群规模化核心方案，拆分Prefill池、Decode池独立扩缩容，解决大流量长上下文瓶颈&lt;/li&gt;
&lt;li&gt;打通跨节点KV缓存迁移、外部分布式KV缓存（Mooncake/PegaFlow/HiCache）&lt;/li&gt;
&lt;li&gt;对齐MoE弹性并行EP、TP/PP流水线并行、Chunked Prefill超长上下文优化路线
### 2. 投机解码统一投入：EAGLE全栈深度优化&lt;/li&gt;
&lt;li&gt;长期主推EAGLE作为默认推测解码，持续迭代低延迟、高接受率版本&lt;/li&gt;
&lt;li&gt;统一目标：消除CPU-GPU同步气泡、与KV缓存调度深度联动，适配CoT/Agent思考场景&lt;/li&gt;
&lt;li&gt;同步兼容Medusa、N-gram、小模型Draft等备选方案
### 3. 硬件全栈兼容路线一致&lt;/li&gt;
&lt;li&gt;下一代NVIDIA Blackwell（GB200/GB300/B300）内核深度优化，NVFP4/FP8统一量化标准&lt;/li&gt;
&lt;li&gt;持续完善AMD MI300/MI350、昇腾、Intel XPU、Google TPU多硬件后端&lt;/li&gt;
&lt;li&gt;统一支持CPU卸载KV缓存、混合内存HMA、低精度量化（AWQ/GPTQ/SVDQuant/TurboQuant）
### 4. 模型生态：Day-0 新模型极速适配&lt;/li&gt;
&lt;li&gt;新发布主流LLM/VLM/MoE（Llama4、Qwen3、DeepSeek V4、Gemma4、GLM5）做到发布当日支持&lt;/li&gt;
&lt;li&gt;兼容Transformers兜底加载，降低自定义模型接入成本
### 5. 统一生产能力底座&lt;/li&gt;
&lt;li&gt;原生OpenAI兼容API、gRPC高吞吐服务、动态LoRA热加载、模型权重热更&lt;/li&gt;
&lt;li&gt;完善监控、性能Profiling、弹性扩缩容、容器/K8s云原生部署方案&lt;/li&gt;
&lt;li&gt;安全加固：端口鉴权、模型加载沙箱、输入过滤、远程代码执行防护
### 6. 多模态统一方向&lt;/li&gt;
&lt;li&gt;同步推进文生图/视频扩散模型、TTS、多模态Omni模型流水线推理&lt;/li&gt;
&lt;li&gt;统一CacheDiT、提示词Embedding缓存、多模态KV缓存复用优化&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  二、核心路线差异（根本定位不同，规划完全分化）
&lt;/h2&gt;

&lt;h3&gt;
  
  
  （一）底层架构定位差异（决定所有后续规划）
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM：通用高性能推理执行引擎，广度优先
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;核心定位&lt;/strong&gt;：通用、普惠、全场景兼容的底层推理Runtime，不侵入上层业务逻辑，主打&lt;strong&gt;最大生态覆盖、异构硬件、通用批量服务&lt;/strong&gt;&lt;/p&gt;

&lt;h4&gt;
  
  
  SGLang：DSL+Runtime一体化系统，深度优先
&lt;/h4&gt;

&lt;p&gt;&lt;strong&gt;核心定位&lt;/strong&gt;：面向复杂Agent/结构化业务的&lt;strong&gt;可编程推理系统&lt;/strong&gt;，前端SGL DSL语言+后端运行时协同设计，主打&lt;strong&gt;多轮对话、工具调用、结构化输出、RL训练推理一体化&lt;/strong&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  （二）分维度未来规划详细对比
&lt;/h3&gt;

&lt;h3&gt;
  
  
  1. KV缓存长期演进路线（最核心分水岭）
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM 路线：PagedAttention持续迭代，通用内存均衡
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;持续优化分页式KV缓存，减少内存碎片，适配随机、无共享前缀的混合请求（短对话+长文档+独立单轮请求）&lt;/li&gt;
&lt;li&gt;短期：Prefill Cache、跨节点KV迁移、CPU内存卸载；长期：分层分页缓存、动态块粒度&lt;/li&gt;
&lt;li&gt;短板：共享前缀复用能力弱，不专门针对高频多轮Agent做深度优化
#### SGLang 路线：RadixAttention基数树为核心，极致前缀复用&lt;/li&gt;
&lt;li&gt;RadixAttention永久作为底层KV底座，持续迭代RadixArk缓存系统，持久化多轮会话上下文&lt;/li&gt;
&lt;li&gt;长期规划：跨服务全局共享KV缓存、Agent会话持久化、自动前缀合并淘汰&lt;/li&gt;
&lt;li&gt;目标：Agent/RAG多轮场景吞吐相比vLLM长期保持40%~70%领先，这是SGLang不可替代的护城河&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  2. 结构化输出 / Agent 工作流规划
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM：仅做基础支持，不深度深耕
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;仅集成Outlines实现JSON/正则约束，无专属底层优化；结构化生成不作为核心赛道&lt;/li&gt;
&lt;li&gt;Agent能力依赖第三方框架（LangChain、LlamaIndex），框架本身不内置流程控制
#### SGLang：结构化与Agent是第一优先级赛道&lt;/li&gt;
&lt;li&gt;XGrammar 2持续迭代，压缩FSM并行解码，JSON/Schema生成速度长期拉开数倍差距&lt;/li&gt;
&lt;li&gt;完善SGL DSL：原生支持循环、分支、工具调用、多模型并行、动态Prompt拼接&lt;/li&gt;
&lt;li&gt;长期目标：把复杂Agent逻辑全部下沉到推理引擎层，减少业务侧代码开销，实现“推理即Agent运行时”&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  3. RL训练+推理一体化路线（巨大分化）
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM：推理为主，RL为辅，依赖外部工具链
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;RL仅提供轻量配套VeRL-Omni，定位辅助功能，不做深度融合&lt;/li&gt;
&lt;li&gt;训练、推理完全解耦，无原生权重热更、引擎休眠、PD分离训练流水线&lt;/li&gt;
&lt;li&gt;不主打后训练场景，适合纯线上推理服务
#### SGLang：推理+RL训练双一等公民（核心差异化路线）&lt;/li&gt;
&lt;li&gt;官方长期重点投入PD分离训练推理流水线、分布式RL集群&lt;/li&gt;
&lt;li&gt;原生支持动态权重热更新、引擎休眠唤醒、生成暂停续跑、确定性训练&lt;/li&gt;
&lt;li&gt;适配大规模RLHF、DPO、GRPO，已落地GLM、DeepSeek系列大模型后训练，未来持续强化训练一体化能力&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  4. 多模态&amp;amp;扩散模型发展策略
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM：独立分支vllm-omni，全品类全覆盖
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;独立维护完整多模态套件：图像、视频、TTS、扩散模型、离散扩散DLLM全栈支持&lt;/li&gt;
&lt;li&gt;硬件适配最广：TPU、Trainium、Gaudi全部原生支持，云厂商多模态业务首选&lt;/li&gt;
&lt;li&gt;商业化重点投入多模态生产流水线，扩散模型是核心增长赛道
#### SGLang：SGLang-Diffusion附属模块，优先级低于LLM/Agent&lt;/li&gt;
&lt;li&gt;扩散、视频仅作为扩展功能，资源倾斜远少于文本推理&lt;/li&gt;
&lt;li&gt;多模态VLM仅基础支持，无独立商业化团队；不投入TPU、专用AI芯片多模态深度适配&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  5. 调度器与零开销优化路线
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM V1引擎：异步重叠调度，通用批量最优
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;Model Runner V2默认架构，双批次重叠、零气泡调度，面向无规律混合并发&lt;/li&gt;
&lt;li&gt;优化重心：大批量离线推理、高并发独立请求、MoE负载均衡&lt;/li&gt;
&lt;li&gt;EAGLE同步存在CPU-GPU同步气泡，高并发P99延迟会抬升
#### SGLang：零开销重叠调度永久标配&lt;/li&gt;
&lt;li&gt;CPU预处理、FSM约束、EAGLE草稿、GPU计算四者完全并行重叠，无同步阻塞&lt;/li&gt;
&lt;li&gt;调度器原生适配Radix缓存树查询，多轮会话场景GPU利用率更高&lt;/li&gt;
&lt;li&gt;长期持续打磨“零开销投机解码”，拉开延迟差距&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  6. 社区、生态与商业化路线
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM：开源普惠，商业化生态最庞大
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;社区规模、贡献者、第三方集成（K8s、云厂商、向量库）行业第一&lt;/li&gt;
&lt;li&gt;商业公司Inferact提供官方企业版，面向公有云、超大规模异构集群&lt;/li&gt;
&lt;li&gt;路线：兼容一切硬件、兼容一切上层框架，走通用基础设施路线
#### SGLang：学术+垂直行业深度落地，轻量化专精路线&lt;/li&gt;
&lt;li&gt;LMSYS伯克利学术主导，社区规模更小但迭代聚焦Agent、结构化、RL&lt;/li&gt;
&lt;li&gt;商业化侧重企业RAG、智能体、大模型微调训练场景，主打垂直AI应用厂商&lt;/li&gt;
&lt;li&gt;不追求全硬件全覆盖，优先深耕NVIDIA+国产昇腾/AMD主流卡，弱化小众TPU/专用芯片&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  7. 长期架构重构规划
&lt;/h3&gt;

&lt;h4&gt;
  
  
  vLLM：V1引擎稳定迭代，轻量化V2实验中
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;当前V1引擎成熟稳定，短期只做内核优化；远期V2会重构内存管理器、统一多模态管线&lt;/li&gt;
&lt;li&gt;兼容存量代码，不破坏现有用户API
#### SGLang：持续前后端协同重构（DSL+Runtime绑定迭代）&lt;/li&gt;
&lt;li&gt;每一轮大版本同步升级SGL语言语法与底层Radix运行时，两者深度耦合迭代&lt;/li&gt;
&lt;li&gt;为了Agent性能会适度打破兼容，优先保证复杂业务性能收益&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  三、极简总结：选型与规划一句话区分
&lt;/h2&gt;

&lt;h3&gt;
  
  
  相同点
&lt;/h3&gt;

&lt;p&gt;两者都攻坚PD分离、EAGLE投机解码、下一代GPU、多硬件兼容、分布式KV缓存、云原生生产部署，底层高性能推理技术栈趋同。&lt;/p&gt;

&lt;h3&gt;
  
  
  不同点
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;vLLM&lt;/strong&gt;：通用全场景推理底座，广度为王；未来主攻&lt;strong&gt;多模态、异构硬件、大规模通用在线服务、MoE批量推理&lt;/strong&gt;，RL/Agent仅为辅线。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SGLang&lt;/strong&gt;：Agent/结构化/RL一体化系统，深度为王；未来主攻&lt;strong&gt;Radix前缀缓存、SGL可编程DSL、多轮对话智能体、训练推理融合&lt;/strong&gt;，多模态、小众硬件仅做配套。&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;需要我整理一份&lt;strong&gt;选型判断清单&lt;/strong&gt;，根据你的业务场景（纯聊天/RAG/Agent/训练/文生图）快速判断该选哪个框架吗？&lt;/p&gt;










&lt;h1&gt;
  
  
  ii 简要说：vLLM 离硬件近,主攻多模态 ；SGLang深入到软件场景
&lt;/h1&gt;

&lt;h2&gt;
  
  
  一、vLLM：更贴近硬件底层、全模态全覆盖
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. 为什么说它“离硬件更近”
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;底层内存/调度完全面向GPU硬件资源做极致优化&lt;/strong&gt;
核心基石 &lt;code&gt;PagedAttention&lt;/code&gt; 模仿操作系统内存分页，直接管理显存物理块、DMA零拷贝、FlashAttention硬件内核、HMA混合内存、KV缓存swap换页到CPU内存，全部是&lt;strong&gt;硬件层、显存层、PCIe带宽&lt;/strong&gt;级优化。
设计思路：&lt;strong&gt;把模型当成黑盒，只管好GPU资源调度&lt;/strong&gt;，不介入上层业务逻辑。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;硬件生态广度第一&lt;/strong&gt;
NVIDIA、AMD ROCm、昇腾、Intel XPU、AWS Trainium、Google TPU全适配；各大云厂商、AI芯片厂商官方合作维护插件，优先适配各类新硬件内核（Blackwell、MI350等）。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;调度器是通用批处理底座&lt;/strong&gt;
Model Runner V2、连续批处理、MoE弹性并行、跨节点KV缓存卸载，全部服务于&lt;strong&gt;最大化GPU硬件利用率&lt;/strong&gt;，不管你是聊天、摘要、离线批量，统一一套硬件调度逻辑。&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  2. 多模态是官方一级核心赛道（vLLM-Omni独立完整体系）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;专门重构流水线抽象 &lt;code&gt;OmniStage&lt;/code&gt;，统一支持图像、音频、视频、TTS、扩散文生图/视频、离散DLLM；&lt;/li&gt;
&lt;li&gt;视觉编码器、LLM、扩散生成器分阶段独立扩缩，原生做多模态显存/计算隔离；&lt;/li&gt;
&lt;li&gt;未来规划持续加码全模态生成，是vLLM差异化核心竞争力之一。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  3. 短板：上层业务能力只是配套
&lt;/h3&gt;

&lt;p&gt;结构化JSON、Agent工具调用、多轮会话缓存复用都只是附加功能，底层没有深度绑定优化；复杂Agent循环/分支逻辑必须丢给客户端实现，引擎不原生支持工作流。&lt;/p&gt;

&lt;h2&gt;
  
  
  二、SGLang：向上深耕软件业务场景，硬件优化为业务服务
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. 核心定位：&lt;strong&gt;推理引擎+上层DSL编程语言一体化&lt;/strong&gt;
&lt;/h3&gt;

&lt;p&gt;底层硬件优化是&lt;strong&gt;手段&lt;/strong&gt;，上层复杂LLM应用才是核心目标，重点深耕四大软件场景：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;多轮对话/长会话&lt;/strong&gt;
核心护城河 &lt;code&gt;RadixAttention&lt;/code&gt; 基数树KV缓存，专门针对大量重复System Prompt、多轮上下文、RAG检索前缀做全局复用，多轮场景吞吐远超vLLM；&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Agent智能体工作流&lt;/strong&gt;
自研SGL DSL，引擎原生支持循环、分支、工具调用、多模型串行/并行、动态Prompt拼接；不用客户端反复发请求，大幅减少网络开销，这是vLLM完全不具备的一等公民能力；&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;结构化输出（JSON/SQL/正则）&lt;/strong&gt;
XGrammar内置FSM并行解码，底层深度优化约束生成，格式纠错、速度远优于vLLM外接Outlines；&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;RL训练+推理一体化&lt;/strong&gt;
原生支持权重热更、引擎休眠、PD分离训练流水线，兼顾推理服务与大规模RLHF/DPO/GRPO微调，vLLM仅提供轻量辅助工具链。&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  2. 硬件、多模态只是配套，优先级很低
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;硬件适配：只深耕主流NVIDIA、AMD、昇腾，小众TPU、专用训练芯片投入极少；硬件优化全部服务Radix缓存、EAGLE零开销调度，没有独立面向异构硬件的底层重构；&lt;/li&gt;
&lt;li&gt;多模态：仅基础VLM图像支持，扩散、视频、TTS属于附属扩展模块，没有独立vllm-omni这种完整产品线，长期不会作为主线发力。&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  3. 硬件层面不是完全不优化，只是思路不同
&lt;/h3&gt;

&lt;p&gt;SGLang也做CUDA、显存、EAGLE加速，但所有硬件优化都&lt;strong&gt;围绕多轮/Agent/结构化场景&lt;/strong&gt;：&lt;br&gt;
比如你之前看到的「EAGLE零开销」，专门解决多轮高并发下CPU-GPU同步气泡，是为Agent场景定制的硬件流水线优化，而非通用批量推理。&lt;/p&gt;

&lt;h2&gt;
  
  
  三、一句话精炼验证你的判断
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;vLLM&lt;/strong&gt;：底层硬件基建，广度优先；主打通用GPU资源调度、全硬件兼容、完整多模态生成，上层Agent/结构化只是附加功能；&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SGLang&lt;/strong&gt;：上层应用 runtime，深度优先；以Radix缓存、SGL DSL为核心，死磕多轮对话、Agent、结构化输出、RL训练推理一体化，硬件与多模态仅做配套支撑。&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  四、补充一个关键区分（避免误解）
&lt;/h2&gt;

&lt;p&gt;两者&lt;strong&gt;都做CUDA、显存、投机解码等硬件加速&lt;/strong&gt;，不是SGLang不碰硬件；&lt;br&gt;
区别在于：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;vLLM：硬件优化是&lt;strong&gt;主线目标&lt;/strong&gt;，适配所有业务；&lt;/li&gt;
&lt;li&gt;SGLang：硬件优化是&lt;strong&gt;配套手段&lt;/strong&gt;，只为复杂Agent/多轮场景服务。&lt;/li&gt;
&lt;/ul&gt;










&lt;h1&gt;
  
  
  iii 这两个未来可能被不同的AI巨头收购吗？
&lt;/h1&gt;

&lt;h1&gt;
  
  
  vLLM、SGLang 被AI巨头收购的可能性完整分析
&lt;/h1&gt;

&lt;p&gt;先给核心结论：&lt;br&gt;
两者&lt;strong&gt;都刚独立分拆成商业化创业公司、拿到大额种子轮、估值不低&lt;/strong&gt;，短期（1–2年）&lt;strong&gt;不会轻易被收购&lt;/strong&gt;；中长期（3–5年）存在收购可能性，但&lt;strong&gt;收购方、收购逻辑、收购概率完全不一样&lt;/strong&gt;。&lt;/p&gt;

&lt;h2&gt;
  
  
  一、先理清两家现在的商业主体（收购的前提）
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. vLLM → 商业化公司 Inferact
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;2026年1月核心团队独立创业，种子轮 &lt;strong&gt;1.5亿美元&lt;/strong&gt;，投后估值 &lt;strong&gt;8亿美元&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;投资方：a16z、红杉、真格、Databricks风投等纯财务VC，&lt;strong&gt;无芯片/AI巨头战略控股&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;定位：通用硬件推理底座、多模态、全硬件适配，云厂商、芯片厂商通用基建&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  2. SGLang → 商业化公司 RadixArk
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;2026年5月从伯克利LMSYS分拆，种子轮 &lt;strong&gt;1亿美元&lt;/strong&gt;，投后估值 &lt;strong&gt;4亿美元&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;战略投资方直接包含：&lt;strong&gt;NVIDIA NVentures、AMD、联发科&lt;/strong&gt;；xAI高管是天使投资人&lt;/li&gt;
&lt;li&gt;定位：Agent/结构化/RL训练推理一体化，主打上层应用场景&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  二、两者「被收购」的相同底层约束（两家都适用）
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;开源主体独立，收购公司≠收购开源代码&lt;/strong&gt;
两个项目都是 Apache 2.0 开源，代码永久公开托管在LMSYS/GitHub社区；就算母公司被收购，开源分支依然可以由社区、伯克利团队继续迭代，巨头无法独占技术，收购价值会打折扣。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;团队目标是独立上市，不是卖身&lt;/strong&gt;
两家都拿到顶级VC大额种子轮，投资人路线是：扩商业客户→A/B轮融资→3–5年IPO，收购只是备选退出方案，不是首选。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;行业更流行「战略投资/深度绑定」，而非全资收购&lt;/strong&gt;
参考英伟达对Groq是&lt;strong&gt;技术授权+吸纳核心团队&lt;/strong&gt;，而非全额并购；云厂商、芯片厂更愿意入股、深度共建，避免反垄断、巨额现金支出。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;反垄断风险高&lt;/strong&gt;
vLLM是全球占有率最高的通用推理引擎，如果NVIDIA、微软、谷歌全资收购，会被监管判定垄断AI推理基础设施，审批阻力极大。&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  三、vLLM（Inferact）：收购概率、潜在买家、逻辑
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. 收购概率：中等（3年内偏低，5年后偏高）
&lt;/h3&gt;

&lt;h3&gt;
  
  
  2. 最有可能出手的巨头分两类
&lt;/h3&gt;

&lt;h4&gt;
  
  
  （1）云厂商：微软Azure、AWS、Google Cloud
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;动机：vLLM是全硬件、全模型、多模态通用底座，云厂商自有推理系统偏弱，收购后统一云上推理底层，降低自研成本；&lt;/li&gt;
&lt;li&gt;障碍：估值8亿美金不算低，且开源代码无法锁死，更多会选择&lt;strong&gt;战略入股+独家深度合作&lt;/strong&gt;，而非全资收购。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  （2）芯片厂商：NVIDIA、AMD、Intel
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;NVIDIA：自家有TensorRT-LLM，和vLLM直接竞争，全资收购意愿弱；但会持续战略投资、联合优化；&lt;/li&gt;
&lt;li&gt;AMD/Intel：自家推理软件生态薄弱，收购vLLM可以快速补齐跨硬件推理能力，收购意愿更强。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  （3）大模型厂商：Meta、OpenAI
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;Meta：内部推理方案自研，但vLLM社区生态极强，收购用来补齐对外云服务；&lt;/li&gt;
&lt;li&gt;OpenAI：重度依赖自研推理引擎，收购动力极低。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  3. 为什么vLLM更容易被云/芯片巨头看上？
&lt;/h3&gt;

&lt;p&gt;正好对应你之前的判断：&lt;strong&gt;vLLM贴近硬件、通用、多模态全覆盖&lt;/strong&gt;。&lt;br&gt;
对云、芯片厂商来说，它是&lt;strong&gt;通用基础设施&lt;/strong&gt;，可以服务所有客户、所有模型、所有硬件，收购后能直接拉动GPU/云算力营收，通用性带来商业价值上限更高。&lt;/p&gt;

&lt;h2&gt;
  
  
  四、SGLang（RadixArk）：收购概率、潜在买家、逻辑
&lt;/h2&gt;

&lt;h3&gt;
  
  
  1. 收购概率：分化明显，两类买家态度完全相反
&lt;/h3&gt;

&lt;h4&gt;
  
  
  （1）高意向买家：xAI、字节、阿里、腾讯、Anthropic（做Agent/大模型应用的公司）
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;核心匹配点：SGLang独有的Radix缓存、SGL DSL、Agent原生支持、RL训练推理一体，是面向&lt;strong&gt;上层智能体业务&lt;/strong&gt;的专用引擎；&lt;/li&gt;
&lt;li&gt;xAI本身已经大规模落地SGLang，创始人团队有xAI前员工，马斯克有直接收购动力，用来统一Grok全系推理与RL训练链路。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  （2）低意向买家：NVIDIA、AMD、公有云厂商
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;NVIDIA已经战略入股RadixArk，只需要合作优化，不需要全资收购；&lt;/li&gt;
&lt;li&gt;公有云主打通用批量推理，SGLang场景偏垂直（Agent/RAG），覆盖面不如vLLM，收购性价比更低。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  2. 关键限制：双芯片巨头已经提前入股
&lt;/h3&gt;

&lt;p&gt;NVIDIA、AMD同时持有RadixArk股份，任何第三方巨头想要收购，都需要和两大芯片厂商博弈，交易难度远高于Inferact。&lt;/p&gt;

&lt;h2&gt;
  
  
  五、两者收购场景核心差异对照表
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;维度&lt;/th&gt;
&lt;th&gt;vLLM（Inferact）&lt;/th&gt;
&lt;th&gt;SGLang（RadixArk）&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;核心收购方&lt;/td&gt;
&lt;td&gt;云厂商、AMD/Intel芯片厂&lt;/td&gt;
&lt;td&gt;xAI、国内大模型厂商、Agent应用公司&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;收购核心价值&lt;/td&gt;
&lt;td&gt;通用硬件底层、全硬件/多模态生态，标准化推理基建&lt;/td&gt;
&lt;td&gt;Agent/结构化/RL一体化、Radix前缀缓存，垂直业务性能护城河&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;现有股东&lt;/td&gt;
&lt;td&gt;纯财务VC，无芯片巨头控股&lt;/td&gt;
&lt;td&gt;NVIDIA、AMD战略入股，交易门槛更高&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;收购阻力&lt;/td&gt;
&lt;td&gt;反垄断风险高（通用垄断级工具）&lt;/td&gt;
&lt;td&gt;行业垄断风险低，但现有股东博弈复杂&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;短期（1–2年）收购可能性&lt;/td&gt;
&lt;td&gt;低，优先独立扩张&lt;/td&gt;
&lt;td&gt;极低，芯片股东深度绑定&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;中长期（3–5年）收购可能性&lt;/td&gt;
&lt;td&gt;中高，云厂商补齐基建刚需&lt;/td&gt;
&lt;td&gt;中等，仅垂直AI大模型公司有强收购意愿&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  六、两种更可能发生、替代全资收购的模式（现实主流）
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;战略少数股权投资&lt;/strong&gt;
英伟达、AMD已经投了RadixArk；未来AWS、微软大概率入股Inferact，深度定制、共享收益，但不收购控制权。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Acqui-hire（人才吸纳+技术独家授权）&lt;/strong&gt;
巨头不买公司，直接高薪吸纳核心研发团队，拿到独家商业优化授权，开源代码依旧对外开放（参考英伟达×Groq模式）。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;独家深度共建合作&lt;/strong&gt;
比如xAI和RadixArk长期绑定、微软Azure和Inferact定制云上版本，按营收分成，无股权交易。&lt;/li&gt;
&lt;/ol&gt;

&lt;h2&gt;
  
  
  七、一句话总结你的疑问
&lt;/h2&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;vLLM&lt;/strong&gt;：因为贴近硬件、通用全场景，&lt;strong&gt;公有云、芯片厂商更想收&lt;/strong&gt;，但反垄断、高估值会拖慢收购，大概率先入股合作；&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SGLang&lt;/strong&gt;：深耕Agent、多轮对话、RL上层软件场景，&lt;strong&gt;做生成式大模型/智能体的厂商（xAI、国内大厂）收购意愿更强&lt;/strong&gt;；但NVIDIA/AMD已经提前持股，全资收购难度更大；&lt;/li&gt;
&lt;li&gt;短期2年内两家都不会被收购，行业主流路线是&lt;strong&gt;战略投资+联合共建&lt;/strong&gt;，而非全盘收购。&lt;/li&gt;
&lt;/ol&gt;

</description>
      <category>ai</category>
      <category>distributedsystems</category>
      <category>llm</category>
      <category>performance</category>
    </item>
    <item>
      <title>《播客AI &amp; I》对话数据标注和评估公司 Surge AI 的创始人兼 CEO Edwin Chen</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Thu, 25 Jun 2026 01:14:13 +0000</pubDate>
      <link>https://dev.to/cognitalk/bo-ke-ai-i-dui-hua-shu-ju-biao-zhu-he-ping-gu-gong-si-surge-ai-de-chuang-shi-ren-jian-ceo-edwin-chen-1m9n</link>
      <guid>https://dev.to/cognitalk/bo-ke-ai-i-dui-hua-shu-ju-biao-zhu-he-ping-gu-gong-si-surge-ai-de-chuang-shi-ren-jian-ceo-edwin-chen-1m9n</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/omX6wrLuX08"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="https://www.youtube.com/watch?v=omX6wrLuX08" rel="noopener noreferrer"&gt;https://www.youtube.com/watch?v=omX6wrLuX08&lt;/a&gt;&lt;br&gt;
这段视频是播客节目《AI &amp;amp; I》的一期访谈，主持人 Dan Shipper 对话了数据标注和评估公司 &lt;strong&gt;Surge AI 的创始人兼 CEO Edwin Chen&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;Surge AI 是一家通过提供专家数据和环境来“抚养” AGI 的“隐形巨头”，据主持人透露其营收已达 10 亿美元且未进行过风险投资。在这场约 44 分钟的对话中，他们深入探讨了 AI 的最新进展、数据在模型训练中的核心角色，以及 AI 给人类带来的生存哲学思考。&lt;/p&gt;

&lt;p&gt;以下是访谈的核心内容整理：&lt;/p&gt;




&lt;h3&gt;
  
  
  1. 模型发展与“研究级”数学的突破
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;像办学校一样培养 AI：&lt;/strong&gt; Edwin 将 Surge AI 的工作比作“AGI 的学校” &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=110" rel="noopener noreferrer"&gt;01:50&lt;/a&gt;。一年前他们主要测试模型解决中学生数学（如其参与创建的 GSM 8K 基准）或数学竞赛（IMO）的能力，而现在训练的维度已经大幅提升。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;攻克未解之谜：&lt;/strong&gt; 他们推出了针对科研级数学的基准 &lt;code&gt;Remon bench&lt;/code&gt; &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=231" rel="noopener noreferrer"&gt;03:51&lt;/a&gt;。Edwin 提到不久前 OpenAI 的模型利用新颖的代数几何技术，成功&lt;strong&gt;证伪了数学家保罗·埃尔德什（Paul Erdős）提出的一个公开猜想&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=247" rel="noopener noreferrer"&gt;04:07&lt;/a&gt;。菲尔兹奖得主 Timothy Gowers 甚至对此表达了“既震撼又松了一口气”的复杂心情 &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=383" rel="noopener noreferrer"&gt;06:23&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  2. AI 公司的“指标陷阱”与人类 FLOURISHING（蓬勃发展）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;反对“成瘾性设计”：&lt;/strong&gt; Edwin 尖锐地指出，许多 AI 实验室和产品当前在盲目模仿社交媒体的逻辑——&lt;strong&gt;优化用户停留时间（Session Length）和互动率&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=956" rel="noopener noreferrer"&gt;15:56&lt;/a&gt;。为了迎合类似 &lt;code&gt;LMSYS Chatbot Arena&lt;/code&gt; 这类只有几秒钟权衡的投票机制，模型正在学会“奖励作弊（Reward Hack）” &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=1341" rel="noopener noreferrer"&gt;22:21&lt;/a&gt;，例如故意使用极其华丽、充满套路的密集的隐喻来写文章（他们为此推出了 &lt;code&gt;Hemingway bench&lt;/code&gt; 写作基准来测试这一现象） &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=2391" rel="noopener noreferrer"&gt;39:51&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;提倡“主动拒绝”与授权：&lt;/strong&gt; Edwin 认为真正对人类有益的 AI 应该优化“人类的成长”。例如在用户反复纠结修改一封无关紧要的邮件 20 次时，AI 应该主动“推回”（Push back）并对用户说：“别改了，这就挺好，快发出去做更有意义的事吧。” &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=926" rel="noopener noreferrer"&gt;15:26&lt;/a&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  3. 数据与高阶 RL 环境的演变
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;强化学习环境（RL Environments）：&lt;/strong&gt; 当前最前沿的训练不再只是喂干瘪的数据集，而是将模型放入包含各种工具（如 MCP 服务器、Google Drive API、Slack API）和几十个复杂文档的综合环境里 &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=1855" rel="noopener noreferrer"&gt;30:55&lt;/a&gt;。模型需要像真人一样，在被赋予一个模糊任务后（例如“去更新 2026 年的收入预测”），自己去翻看 PDF、判断 Slack 聊天记录里的哪些修正信息覆盖了旧数据 &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=1878" rel="noopener noreferrer"&gt;31:18&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;深度个性化（Deep Personalization）的价值：&lt;/strong&gt; 在谈到个人数据的价值时，Edwin 提到目前模型的个性化做得很糟（容易过度索引用户偶然提到的一句话） &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=2181" rel="noopener noreferrer"&gt;36:21&lt;/a&gt;。未来真正有价值的是能全方位理解你行为上下文的互联数据网络（你的邮件、Slack、照片、浏览器交互历史等），从而学习你的写作风格和决策逻辑 &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=2329" rel="noopener noreferrer"&gt;38:49&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  4. 存在主义危机与 AGI 时间线
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;对人类未来的担忧：&lt;/strong&gt; 作为一个从小想成为纯数学家的人，Edwin 承认如果“缩放定律”（Scaling Laws）持续生效（他也坚信这点），未来几乎没有什么事情是人类能做而 AI 做不好的 &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=453" rel="noopener noreferrer"&gt;07:33&lt;/a&gt;。这可能导致人类陷入某种无能为力的瘫痪状态。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;“假装有自由意志”：&lt;/strong&gt; 他引用了科幻作家姜峯楠（Ted Chiang）的小说《天意》（&lt;em&gt;What's Expected of Us&lt;/em&gt;） &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=526" rel="noopener noreferrer"&gt;08:46&lt;/a&gt;，呼吁人类在未来必须“有意识地选择”自己去证明、去写作、去创造，&lt;strong&gt;即便 AI 的产出更优化，也要去坚守和保护“人类自身的价值”&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=556" rel="noopener noreferrer"&gt;09:16&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;AGI 预测：&lt;/strong&gt; 如果将 AGI 定义为“能够自动化普通工程师的工作、在顶级期刊发表颠覆性科研成果，或有能力赢得菲尔兹奖/诺贝尔奖”，Edwin 认为&lt;strong&gt;未来 5 年内就会实现&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=omX6wrLuX08&amp;amp;t=2528" rel="noopener noreferrer"&gt;42:08&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;p&gt;如果你想了解技术细节（特别是关于数学和 RL 环境的部分），可以直接拖动到视频对应的时间戳观看。&lt;/p&gt;

</description>
    </item>
    <item>
      <title>【红杉播客】AI Neolab--Engram【主攻记忆与持续学习】--分享未来 AI 发展趋势的独特见解</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Thu, 25 Jun 2026 01:12:13 +0000</pubDate>
      <link>https://dev.to/cognitalk/hong-shan-bo-ke-ai-neolab-engramzhu-gong-ji-yi-yu-chi-xu-xue-xi-fen-xiang-wei-lai-ai-fa-zhan-qu-shi-de-du-te-jian-jie-1fma</link>
      <guid>https://dev.to/cognitalk/hong-shan-bo-ke-ai-neolab-engramzhu-gong-ji-yi-yu-chi-xu-xue-xi-fen-xiang-wei-lai-ai-fa-zhan-qu-shi-de-du-te-jian-jie-1fma</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/aiR7F4jqjXY"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="https://www.youtube.com/watch?v=aiR7F4jqjXY" rel="noopener noreferrer"&gt;https://www.youtube.com/watch?v=aiR7F4jqjXY&lt;/a&gt;&lt;br&gt;
在这期由红杉资本（Sequoia Capital）主持的《Training Data》播客节目中，初创公司 Engram 的联合创始人 Dan Biderman 和 Jessy Lin 深入探讨了 &lt;strong&gt;“记忆（Memory）与持续学习（Continual Learning）”&lt;/strong&gt; 在 AI 领域的核心作用，并分享了他们对未来 AI 发展趋势的独特见解：&lt;/p&gt;




&lt;h3&gt;
  
  
  核心论点与核心 premise
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;将知识直接“烤入”模型权重（Weights）：&lt;/strong&gt; Engram 的核心前提是：不要一味地将越来越长的提示词强行塞入上下文窗口，或者完全依赖外挂的检索增强生成（RAG）。相反，应该将团队、公司或个人的特有知识&lt;strong&gt;直接训练并内化到模型的权重中&lt;/strong&gt;，让 AI 模型像工作了多年的资深员工一样，本能、直觉式地了解这家公司 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=71" rel="noopener noreferrer"&gt;01:11&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;记忆与持续学习是硬币的两面：&lt;/strong&gt; 目前的 Frontier 实验室主要聚焦于预训练和后训练（Post-training），将模型打造成在数学和代码上具有高 raw intelligence 的工具。而 Engram 认为，AI 未来的瓶颈在于理解“全新且不断演变的上下文”，并主张模型应该处于“永远在训练”的状态 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=64" rel="noopener noreferrer"&gt;01:04&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  技术实现与架构
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;轻量化训练与适配器（Adapters）：&lt;/strong&gt; 团队在技术上通过各种适配器（如 LoRA、Prefix 等）和微调手段（SFT、RL、在策略蒸馏等），在各个工作空间（Workspace）内针对不同团队训练专属的专属小模型 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=279" rel="noopener noreferrer"&gt;04:39&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;不仅是开源模型：&lt;/strong&gt; 虽然由于可以直接访问权重（White box access），这种方法在开源模型上最容易实施，但他们也可以与闭源模型公司合作，将这种能力应用到任何基于 Transformer 的模型上 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=391" rel="noopener noreferrer"&gt;06:31&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  与 RAG（外挂检索）及 KV Cache 的对比
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;RAG 存在极限（"Rag Killer" 的定位）：&lt;/strong&gt; 尽管不完全排斥 RAG（基础事实的记录依然需要），但如果一味依赖 RAG，模型很难进行&lt;strong&gt;抽象的、跨领域的联想（Associations）&lt;/strong&gt;。此外，当信息量达到每天数千万 Token 时，RAG 的查找和模型的重新阅读成本将变得极为高昂 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=179" rel="noopener noreferrer"&gt;02:59&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=1740" rel="noopener noreferrer"&gt;29:00&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;压缩 KV 缓存（KV Cache）：&lt;/strong&gt; Dan 提到目前的 KV 缓存堪称“庞然大物”（例如一个 Llama 70B 模型对单个长条目的 KV 缓存甚至能吃掉 80GB 的显存，而整个模型的权重也就 100GB 左右）。通过梯度下降（离线训练），可以将这 80GB 的“大脑状态”压缩上千倍，并深深烙印在权重中，极大降低推理成本 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=1816" rel="noopener noreferrer"&gt;30:16&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  创始人背景与思维碰撞
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;生物学/神经网络的启发：&lt;/strong&gt; Dan 拥有神经科学背景，他提到人类的大脑演化出了特定的局限性，大脑在梦境中其实也是在脱离实际交互后，重新去试验和消化白天所学。Engram 的模型也包含类似的阶段，给模型时间去“消化”并从中学习，以防模型在持续学习中彻底“脱轨”（Off the rails） &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=804" rel="noopener noreferrer"&gt;13:24&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=1672" rel="noopener noreferrer"&gt;27:52&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;关于“语言战胜视觉”的趣味探讨：&lt;/strong&gt; 主持人提出了一个非技术性的“疯狂理论”（即电脑纯电子化的环境强化了语言，削弱了生物学上具有极高比特率的视觉优势）。Dan 和 Jessy 认为，人类在办公室读写备忘录等知识工作（Knowledge work）本就不是生物演化的结果，因此采用基于文本的语言作为现阶段 AI 的切入点和界面是非常高效且合理的 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=2471" rel="noopener noreferrer"&gt;41:11&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=2563" rel="noopener noreferrer"&gt;42:43&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  未来愿景（5-10年后）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;人人都有专属模型：&lt;/strong&gt; 未来不会是只有一个越来越大的通用 AGI 模型统治一切。世界将走向分化：&lt;strong&gt;每个人、每个团队都将拥有专属于自己的小模型&lt;/strong&gt;，它们懂你的风格和独特的习惯 &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=921" rel="noopener noreferrer"&gt;15:21&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=2573" rel="noopener noreferrer"&gt;42:53&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;数据层的神经接口（Neural Interface to Data Plane）：&lt;/strong&gt; 正如 DataBricks 或 Oracle 成为传统数据层的基础设施一样，Engram 期望成为所有人访问数据层的“神经网络接口”——它不代表冷冰冰的文件系统，而是代表针对该文件系统的一种&lt;strong&gt;高度联想、高效的大脑状态（Brain state）&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=aiR7F4jqjXY&amp;amp;t=2606" rel="noopener noreferrer"&gt;43:26&lt;/a&gt;。 &lt;/li&gt;
&lt;/ul&gt;










&lt;h2&gt;
  
  
  AI 业内备受瞩目的创新实验室（Neolab）Engram 详细介绍
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://podcasts.apple.com/us/podcast/training-data/id1750736528" rel="noopener noreferrer"&gt;Engram&lt;/a&gt; 是一家在 AI 业内备受瞩目的创新实验室（Neolab），其核心愿景是攻克生成式 AI 的两大终极难题：&lt;strong&gt;长期记忆（Memory）与在线持续学习（Continual Learning）&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;2026年6月，Engram 正式结束隐身状态（Stealth mode），宣布获得由红杉资本（Sequoia Capital）、Kleiner Perkins 和 General Catalyst 领投的 &lt;strong&gt;9800 万美元融资，估值达到 6 亿美元&lt;/strong&gt;。令人瞩目的是，AI 巨擘 Andrej Karpathy 和 AI 领域泰斗 Pieter Abbeel 均以个人名义进行了追投。而此时，整个公司仅有 13 名员工。&lt;/p&gt;

&lt;p&gt;以下是关于两位联合创始人、公司起源以及发展历史的详细介绍：&lt;/p&gt;




&lt;h3&gt;
  
  
  一、 核心创始人背后的技术底色
&lt;/h3&gt;

&lt;p&gt;Engram 的诞生是一场“理论神经科学”与“计算机系统架构”的强强联合。&lt;/p&gt;

&lt;h4&gt;
  
  
  1. Dan Biderman（首席执行官 CEO）
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;学术背景与底色：&lt;/strong&gt; Dan Biderman 来自理论神经科学领域。在神经科学中，“记忆”与“大脑印记”是研究的核心。他曾于斯坦福大学统计学与 AI 领域深造，并在世界顶级 AI 专家 Christopher Ré 教授的实验室工作。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;核心理念：&lt;/strong&gt; 受到生物学启发，Dan 认为当前的 AI 模型虽然充满智慧，但由于缺乏真正的记忆，它们就像“聪明的陌生人”。他主张模型不应在每次对话时重新检索、阅读文件，而是应该像人类大脑一样，通过消耗离线算力，将知识压缩并“内化”到权重中。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  2. Jessy Lin
&lt;/h4&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;学术背景与底色：&lt;/strong&gt; Jessy Lin 毕业于麻省理工学院（MIT），在认知计算科学与自然语言处理（NLP）领域拥有深厚的研究背景，随后在加州大学伯克利分校（UC Berkeley）继续进行前沿 AI 机制的研究。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;核心研究贡献：&lt;/strong&gt; Jessy 长期专注于模型的&lt;strong&gt;主动阅读（Active Reading）与稀疏记忆微调（Sparse Memory Finetuning）&lt;/strong&gt;。在联合创办 Engram 之前，她便致力于解决模型在面对长上下文时，如何识别“哪些事实值得被记住，哪些事实该被遗忘”的过滤机制。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  3. 豪华创始人天团的其他成员
&lt;/h4&gt;

&lt;p&gt;除 Dan 和 Jessy 外，创始团队还包括：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Sabri Eyuboglu：&lt;/strong&gt; 斯坦福大学博士，专注于 Transformer 内部记忆机制、状态空间模型（SSM）及 BASED、Minions 等架构的研究。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Jack Morris：&lt;/strong&gt; 2025年底毅然放弃康奈尔大学（Cornell）的博士学位加入创办，专注于模型记忆化与对抗性研究。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Scott Linderman &amp;amp; Christopher Ré：&lt;/strong&gt; 斯坦福大学知名教授及实验室导师。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  二、 公司的起源：从斯坦福实验室到“逆向押注”
&lt;/h3&gt;

&lt;h4&gt;
  
  
  1. 实验室的灵感碰撞（2025年前后）
&lt;/h4&gt;

&lt;p&gt;公司起源于斯坦福大学的 AI 实验室。当时，Dan Biderman 和 Sabri Eyuboglu 在 Christopher Ré 的实验室里发现，他们正从两个完全不同的学科两端，追逐着同一个“在当时并不算流行”的概念——&lt;strong&gt;机器记忆&lt;/strong&gt;。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;传统的计算机科学中，“数据库（存储事实）”和“算法（处理逻辑）”是完全分离的。&lt;/li&gt;
&lt;li&gt;现代大模型的快猛发展（如预训练和 RAG）虽然部分解决了知识外挂的问题，但并没有从底层改变模型“健忘”的缺陷。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  2. “记忆印记”的命名
&lt;/h4&gt;

&lt;p&gt;公司取名 &lt;strong&gt;“Engram”（记忆印记/ 遗痕）&lt;/strong&gt; 正是源自神经科学。在生物学中，engram 指的是记忆在生物大脑神经组织中留下的物理或化学痕迹。创始人们希望在硅基芯片中，为 AI 刻下同样可以线性组合、擦除和沉淀的“神经印记”。&lt;/p&gt;

&lt;h4&gt;
  
  
  3. 成立与拒绝巨头邀约（2025年10月）
&lt;/h4&gt;

&lt;p&gt;2025年10月，团队正式从斯坦福实验室走出，在旧金山创立了 Engram。为了这个共同的机器记忆愿景，团队内的多位核心成员拒绝了来自 Google Gemini 团队和 Anthropic 等前沿实验室的高薪 Offer，选择加入这场胜算极高却充满挑战的 calculated risk（精确计算的冒险）。&lt;/p&gt;




&lt;h3&gt;
  
  
  三、 发展历史与商业演进（2025年10月 - 2026年6月）
&lt;/h3&gt;

&lt;h4&gt;
  
  
  1. 隐身期与“RAG 杀手”架构的确立
&lt;/h4&gt;

&lt;p&gt;在创立初期的几个月里，Engram 在隐身状态下快速迭代。大模型行业当时正深陷“高昂的 Token 推理成本”和“日益臃肿的上下文窗口（Context Window）”危机。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;痛点：&lt;/strong&gt; 现有的企业 AI 代理（Agents）在处理一份 7 万字的合同或代码库时，其生成的 KV Cache（键值缓存）会膨胀到 100GB 以上。每问一个新问题，模型就得把这 100GB 的“大脑状态”重新从磁盘加载或重新计算一遍，这带来了恐怖的显存占用和资金消耗。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Engram 的解法：&lt;/strong&gt; 他们提出了一套 &lt;strong&gt;“永远在训练”（Always Training）&lt;/strong&gt; 的架构。利用团队此前在 LoRA、BASED、Cartridges、稀疏微调等领域的一系列突破性论文成果，Engram 能够在后台自主运行轻量化的微调，把企业的 Bespoke（定制化）工作流、专属工具链和团队上下文，直接压缩成数千倍小的适配器权重。&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  2. 拥抱顶尖生态合作伙伴
&lt;/h4&gt;

&lt;p&gt;随着算力成本和 Token 消耗成为应用层的最大痛点，Engram 的技术迅速迎来了强烈的市场需求。在隐身期间，他们便与 &lt;strong&gt;Microsoft（微软）、Notion、Harvey（知名法律 AI）&lt;/strong&gt; 等在企业协作和大规模数据处理上饱受 AI 运营成本折磨的巨头及头部初创公司达成了战略合作伙伴关系。&lt;/p&gt;

&lt;h4&gt;
  
  
  3. 轰动性的高额融资与未来愿景（2026年6月）
&lt;/h4&gt;

&lt;p&gt;2026年6月23日前后，Engram 正式走出隐身状态，向世界揭晓了其 9800 万美元的巨额融资。&lt;/p&gt;

&lt;p&gt;在红杉资本主持的 &lt;a href="https://podcasts.apple.com/us/podcast/training-data/id1750736528" rel="noopener noreferrer"&gt;Training Data 播客&lt;/a&gt;中，Dan Biderman 和 Jessy Lin 勾勒出了公司的终极演进路线：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;从每天更新到每分钟更新：&lt;/strong&gt; 目前 Engram 的系统能够让模型在企业内部每天自主消化和吸收新产生的数据。未来，他们的目标是提升数据吸收频率到“每小时”，最终实现“每分钟”甚至“实时更新”而不会发生灾难性遗忘（Catastrophic forgetting）。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;去中心化的个人模型时代：&lt;/strong&gt; Frontier 实验室（如 OpenAI、Anthropic）在拼尽全力用海量资源去堆积一个庞大、通用的 AGI。而 Engram 坚信未来的世界属于分化：&lt;strong&gt;“每个人、每个团队都应该拥有一个属于自己的小模型”&lt;/strong&gt;。这个模型独立、安全、可控、极度便宜，且会在日常使用中，像一个真正的数据员工一样，每天醒来都变得比昨天更聪明。&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>ai</category>
      <category>deeplearning</category>
      <category>llm</category>
      <category>machinelearning</category>
    </item>
    <item>
      <title>超越沙箱：为 AI Agent 构建持久化运行时</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Wed, 24 Jun 2026 22:48:17 +0000</pubDate>
      <link>https://dev.to/cognitalk/chao-yue-sha-xiang-wei-ai-agent-gou-jian-chi-jiu-hua-yun-xing-shi-2i9i</link>
      <guid>https://dev.to/cognitalk/chao-yue-sha-xiang-wei-ai-agent-gou-jian-chi-jiu-hua-yun-xing-shi-2i9i</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/WFyFCFC15dE"&gt;
  &lt;/iframe&gt;
&lt;/p&gt;

&lt;p&gt;&lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE" rel="noopener noreferrer"&gt;http://www.youtube.com/watch?v=WFyFCFC15dE&lt;/a&gt;&lt;br&gt;
这篇演讲的题目是 &lt;strong&gt;《Beyond Sandboxes: Architecting Durable Runtimes for AI Agents》（超越沙箱：为 AI Agent 构建持久化运行时）&lt;/strong&gt;，演讲者是 &lt;a href="https://orkes.io/" rel="noopener noreferrer"&gt;Orkes&lt;/a&gt; 的联合创始人兼 CTO &lt;strong&gt;Virein Baraiya&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;演讲的核心观点是：&lt;strong&gt;在生产环境中运行 AI Agent，仅仅依靠“沙箱（Sandbox）”来实现隔离和保护是不够的，更需要一个“持久化运行时（Durable Runtime）”来保证 Agent 的状态可持久化、崩溃后可恢复、过程可审计。&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;以下是演讲的核心内容总结：&lt;/p&gt;




&lt;h3&gt;
  
  
  一、 核心痛点：为什么传统的“沙箱”和“内存循环”不够用？
&lt;/h3&gt;

&lt;p&gt;传统的 Agent 开发通常把 Agent 当作一个在内存循环（LLM in the loop）中运行的实体：LLM 观察状态 $\rightarrow$ 决定调用工具 $\rightarrow$ 更新状态 $\rightarrow$ 继续循环 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=525" rel="noopener noreferrer"&gt;08:45&lt;/a&gt;。但这种模式在生产环境中存在巨大缺陷：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;无法应对长周期任务：&lt;/strong&gt; 如果一个 Agent 需要运行几天、几周，甚至包含“人工介入（Human-in-the-loop）”环节（例如等待审批或用户提交文档），把整个进程挂在微型虚拟机或沙箱里会极大浪费 CPU 和内存资源 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=354" rel="noopener noreferrer"&gt;05:54&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;缺乏崩溃恢复能力（Crash Recovery）：&lt;/strong&gt; 传统的内存循环在进程奔溃（如网络超时、系统断电）后，内存中的状态和上下文就会全部丢失，无法精准从断点恢复 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=458" rel="noopener noreferrer"&gt;07:38&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=550" rel="noopener noreferrer"&gt;09:10&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;多 Agent 协同复杂：&lt;/strong&gt; 在沙箱中运行的 Agent 彼此之间通信时，需要处理复杂的 IP 寻址、重试逻辑等胶水代码 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=386" rel="noopener noreferrer"&gt;06:26&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  二、 核心架构思想：将“推理”与“执行”分离
&lt;/h3&gt;

&lt;p&gt;演讲者提出，应当把 Agent 的关注点进行分离 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=272" rel="noopener noreferrer"&gt;04:32&lt;/a&gt;：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;沙箱用于保护“执行（Actions）”：&lt;/strong&gt; 专门用来运行由 Agent 生成的、可能存在安全风险或 Bug 的工具代码。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;持久化框架用于编排“推理（Reasoning）”：&lt;/strong&gt; LLM &lt;strong&gt;只负责提出计划&lt;/strong&gt;（例如：“我建议调用天气工具，参数是波士顿”），而&lt;strong&gt;不直接执行&lt;/strong&gt;它。真正的工具调用由底层的运行时（Runtime）系统接管 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=303" rel="noopener noreferrer"&gt;05:03&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Agent 本质上是动态构建的“Sagas（长事务工作流）”：&lt;/strong&gt; 传统工作流图是静态预定义的，而 Agent 是由 LLM 随着运行动态构建图（Late-bound Sagas），但它们同样需要底层的持久化基座来记录每一步 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=664" rel="noopener noreferrer"&gt;11:04&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  三、 解决方案：Conductor 与 Agent Span
&lt;/h3&gt;

&lt;p&gt;为了落地这一架构，演讲者介绍了两个开源项目：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;&lt;a href="https://github.com/netflix/conductor" rel="noopener noreferrer"&gt;Netflix Conductor&lt;/a&gt;（微服务工作流引擎）：&lt;/strong&gt; 这是演讲者团队在 Netflix 期间开发的（现由 Orkes 维护）。它作为一个持久化基座，通过数据库（如 Postgres、Redis）将 Agent 运行的每一步（LLM 调用、工具调用、状态流转、人工输入）都写入账本（Ledger） &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=748" rel="noopener noreferrer"&gt;12:28&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=903" rel="noopener noreferrer"&gt;15:03&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;按需挂起：&lt;/strong&gt; 遇到人工介入或长周期等待时，工作流会暂停，释放全部 CPU 和内存，直到下一个事件触发唤醒，即使隔了 6 个月也能继续 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1083" rel="noopener noreferrer"&gt;18:03&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1151" rel="noopener noreferrer"&gt;19:11&lt;/a&gt;。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Agent Span（Agent 运行时）：&lt;/strong&gt; 构建在 Conductor 之上的 Agent 专用运行时。它像一个编译器，可以把目前市面上主流的 11 种 Agent SDK（如 LangGraph、OpenAI Agents、Vercel AI SDK 等）定义的 Agent，在&lt;strong&gt;不修改业务代码&lt;/strong&gt;的前提下，直接转换为 Conductor 的持久化工作流运行 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=849" rel="noopener noreferrer"&gt;14:09&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1414" rel="noopener noreferrer"&gt;23:34&lt;/a&gt;。&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;h3&gt;
  
  
  四、 带来的核心价值
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;确定性的护栏（Guardrails）：&lt;/strong&gt; 护栏由框架层硬性控制，而不是让 LLM 决定是否调用，防止 LLM 因幻觉绕过安全检查（例如误删数据库） &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=605" rel="noopener noreferrer"&gt;10:05&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;全量审计与回放（Audit &amp;amp; Replay）：&lt;/strong&gt; 即使在几个月后，合规部门想要审计某个 Agent 为什么做出了某项决策，开发者都可以查看完整的执行记录，甚至可以通过 Mock 掉 LLM 的方式来“回放”整个执行过程 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1174" rel="noopener noreferrer"&gt;19:34&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1457" rel="noopener noreferrer"&gt;24:17&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;更高效的测试与 Eval：&lt;/strong&gt; 可以改变某一步 LLM 的输出，来观察后续工具链和业务逻辑的走向，让 Agent 测试更具确定性 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1213" rel="noopener noreferrer"&gt;20:13&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  五、 落地建议与技术护城河
&lt;/h3&gt;

&lt;p&gt;演讲者在最后给出了几点实践建议 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1316" rel="noopener noreferrer"&gt;21:56&lt;/a&gt;：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;工具的幂等性：&lt;/strong&gt; 由于系统采用至少一次交付（At-least-once）的队列，必须注意处理非幂等工具（如转账）的重试逻辑。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;上下文腐化（Context Rot）：&lt;/strong&gt; 随着 Agent 循环次数增多，账本和上下文会极速膨胀。建议将复杂的 Agent 拆分为多个&lt;strong&gt;子 Agent（Sub-agents）&lt;/strong&gt;，让每个子 Agent 只维护各自相关的局部上下文 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1378" rel="noopener noreferrer"&gt;22:58&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;企业的真正护城河（The Moat）：&lt;/strong&gt; 基础模型（如 OpenAI、Anthropic）会不断迭代甚至把一些外部过程内化，但它们永远拿不到企业自身的&lt;strong&gt;业务上下文（Context）&lt;/strong&gt;。通过持久化运行时捕获到的、企业独有的业务执行流程和决策上下文，才是企业在 AI 时代真正的壁垒 &lt;a href="http://www.youtube.com/watch?v=WFyFCFC15dE&amp;amp;t=1485" rel="noopener noreferrer"&gt;24:45&lt;/a&gt;。&lt;/li&gt;
&lt;/ol&gt;










&lt;h3&gt;
  
  
  通俗易懂的解释下Conductor 与 Agent Span
&lt;/h3&gt;

&lt;p&gt;我们可以用一个通俗的类比来理解 &lt;strong&gt;Conductor&lt;/strong&gt; 和 &lt;strong&gt;Agent Span&lt;/strong&gt; 的关系。&lt;/p&gt;

&lt;p&gt;把大模型（Agent）想象成一个“极其聪明但记性极差、随时可能失忆的侦探”。他办案时需要频繁打电话问专家（调用 LLM）、翻查档案（调用工具），甚至需要等领导审批（人工介入）。&lt;/p&gt;

&lt;p&gt;这时候，演讲里提到的这两个开源项目就扮演了不同的角色：&lt;/p&gt;




&lt;h3&gt;
  
  
  1. Netflix Conductor：不知疲倦的“书记官”兼“时间暂停器”
&lt;/h3&gt;

&lt;p&gt;传统的做法是让侦探自己一边查案一边在脑子里记进度。如果中间侦探突然“晕倒”（程序崩溃、网络断开），案子就得从头查起。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;它的核心功能（账本机制）：&lt;/strong&gt; &lt;a href="https://github.com/netflix/conductor" rel="noopener noreferrer"&gt;Conductor&lt;/a&gt; 就像是给侦探配了一个形影不离的“书记官”。侦探每说一句话、每打一个电话、每翻一页档案，书记官都会死死地记在小本本（数据库）上。就算侦探突然晕倒，换个新侦探来，翻开小本本就能立刻接着上一步往下查，绝不浪费时间。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;按需挂起（时间暂停）：&lt;/strong&gt; 办案过程中，侦探需要等领导审批一个文件，而领导去度假了。如果让侦探一直在办公室干等着，公司得天天给他发高额薪水（白白占用服务器 CPU 和内存）。
有了 &lt;a href="https://github.com/netflix/conductor" rel="noopener noreferrer"&gt;Conductor&lt;/a&gt;，书记官会直接让侦探“原地消失”（释放所有计算资源），把案子封存起来。等 6 个月后领导度假回来一签字（触发唤醒事件），书记官啪的一下把案子重新打开，侦探瞬间“复活”，不偏不差地从等签字的那一秒继续往下干。&lt;strong&gt;这期间没花公司一分钱的资源费。&lt;/strong&gt;
&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  2. Agent Span：高级的“同声传译员”（翻译官）
&lt;/h3&gt;

&lt;p&gt;侦探（Agent）有很多流派，有的说英语（LangGraph 框架写出来的），有的说法语（OpenAI SDK 写出来的），他们办案的套路各不相同。而书记官 Conductor 是个老古板，它只听得懂极其严谨的、工厂流水线式的“标准公文”（Deterministic Workflow）。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;它的核心功能（编译器/运行时）：&lt;/strong&gt; &lt;a href="https://www.google.com/search?q=https://github.com/orkes-io/agent-span" rel="noopener noreferrer"&gt;Agent Span&lt;/a&gt; 就是一个“超级同声传译”。
你不需要逼着侦探去学怎么跟老古板书记官沟通（&lt;strong&gt;不用修改你现有的 Agent 业务代码&lt;/strong&gt;）。你用市面上任何主流框架（比如 LangGraph 或是 OpenAI 官方 SDK）写好你的 Agent，&lt;a href="https://www.google.com/search?q=https://github.com/orkes-io/agent-span" rel="noopener noreferrer"&gt;Agent Span&lt;/a&gt; 会在底层自动把侦探嘴里那些天马行空的推理和想法，&lt;strong&gt;翻译&lt;/strong&gt;成老古板书记官能听懂的“标准公文”并交给它去记录和执行。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  总结一下
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Conductor&lt;/strong&gt; 解决了 Agent 在生产环境中的“生存问题”——通过记笔记和高阶省电模式，保证 Agent 任务死不掉、开销低、随时可查。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Agent Span&lt;/strong&gt; 解决了 Agent 的“适配问题”——让你用市面上最流行的姿势去写 Agent，然后无缝享受 Conductor 带来的超强稳定性，中间不需要掉一层皮去重构代码。&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>agents</category>
      <category>ai</category>
      <category>architecture</category>
      <category>systemdesign</category>
    </item>
    <item>
      <title>能否用Rubik Pi 3替代Openclaw的VPS 服务器</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Wed, 24 Jun 2026 02:28:56 +0000</pubDate>
      <link>https://dev.to/cognitalk/neng-fou-yong-rubik-pi-3ti-dai-openclawde-vps-fu-wu-qi-2kp7</link>
      <guid>https://dev.to/cognitalk/neng-fou-yong-rubik-pi-3ti-dai-openclawde-vps-fu-wu-qi-2kp7</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/qeKJhlmBKFw"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw" rel="noopener noreferrer"&gt;http://www.youtube.com/watch?v=qeKJhlmBKFw&lt;/a&gt;&lt;br&gt;
这视频的核心内容是探讨&lt;strong&gt;能否用低成本的微型单板计算机（如 Rubik Pi 3），来替代每月 28 美元的云端 VPS 服务器，作为运行 AI Agent（如 OpenClaw）的底座。&lt;/strong&gt; 视频作者对此进行了实测，主要内容及结论如下：&lt;/p&gt;

&lt;h3&gt;
  
  
  1. 核心背景与硬件参数
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;研究初衷&lt;/strong&gt;：AI 模型的推理（Inference）由于极其消耗算力，通常直接托管在云端。而 AI Agent 本身主要负责&lt;strong&gt;任务编排&lt;/strong&gt;（如调用 API、网页搜索、运行 Shell 命令、协调工具等）。既然“重活”都在云端，Agent 自身所需的硬件配置也许并不高 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=20" rel="noopener noreferrer"&gt;00:20&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;测试硬件（Rubik Pi 3）&lt;/strong&gt;：搭载高通 Dragon Wing 平台的微型开发板，配备 8 核 ARM CPU、8GB RAM、128GB 存储，内置专用 AI 加速器（不过在本次测试中，由于模型在云端，并未使用该加速器）&lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=69" rel="noopener noreferrer"&gt;01:09&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  2. 测试任务与结果对比
&lt;/h3&gt;

&lt;p&gt;作者将搭载 Ubuntu 系统的 &lt;strong&gt;Rubik Pi 3&lt;/strong&gt;（命名为 Thunder）与每月 28 美元的 &lt;strong&gt;Digital Ocean VPS&lt;/strong&gt;（2核 vCPU，4GB RAM，命名为 Ace）进行了对比测试：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;任务一：短调研（总结 OpenClaw 最近的三个 GitHub 版本）&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;VPS (Ace)&lt;/strong&gt; 耗时：约 29 秒 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=228" rel="noopener noreferrer"&gt;03:48&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Rubik Pi (Thunder)&lt;/strong&gt; 耗时：约 32 秒（慢了约 10%）&lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=228" rel="noopener noreferrer"&gt;03:48&lt;/a&gt;。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;任务二：复杂任务（分析 Hacker News 收藏并自动编写工具发送每日简报）&lt;/strong&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;在多次运行中，两者的速度互有胜负（有时 Rubik Pi 更快，有时 VPS 更快）&lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=270" rel="noopener noreferrer"&gt;04:30&lt;/a&gt;。&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;核心发现：&lt;/strong&gt; 硬件性能的差异在实际体验中几乎可以忽略不计 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=289" rel="noopener noreferrer"&gt;04:49&lt;/a&gt;。导致运行时间波动最大的因素其实是 &lt;strong&gt;Agent 自身的策略选择&lt;/strong&gt;。例如，Agent 在某次运行中选择用浏览器抓取网页就会很慢，而选择直接发送 Web 请求或拆分出子 Agent 去写代码，效率就会大大提升 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=300" rel="noopener noreferrer"&gt;05:00&lt;/a&gt;。&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h3&gt;
  
  
  3. 软件栈与闭源生态的差距
&lt;/h3&gt;

&lt;p&gt;当使用相同模型在 ChatGPT（或 iPhone 16 Pro / M4 Max Mac）上直接运行类似任务时，仅需 12 秒 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=350" rel="noopener noreferrer"&gt;05:50&lt;/a&gt;。&lt;br&gt;
作者指出，这是因为 OpenClaw 作为一个开源、通用的 Agent 框架，为了灵活性和可扩展性保留了大量的抽象层和钩子（Hooks），而 ChatGPT 作为闭源系统，在响应速度上做了极致的工程优化 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=381" rel="noopener noreferrer"&gt;06:21&lt;/a&gt;。&lt;/p&gt;

&lt;h3&gt;
  
  
  4. 最终结论与三大行动点
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;放弃日常交互使用&lt;/strong&gt;：日常实时的 AI 对话和交互还是会直接用 laptop 或手机运行 ChatGPT/Claude/Gemini，因为更快更方便 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=446" rel="noopener noreferrer"&gt;07:26&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;非常适合异步/后台工作&lt;/strong&gt;：对于定时运行、触发式的信息收集、内容总结等后台自动化任务，响应时间慢一点无所谓，Rubik Pi 完全能胜任 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=458" rel="noopener noreferrer"&gt;07:38&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;直接省钱&lt;/strong&gt;：作者决定&lt;strong&gt;关闭每月 28 美元的 VPS 账户，彻底转向使用 Rubik Pi 3 来跑他的 OpenClaw Agent&lt;/strong&gt;。Rubik Pi 售价约 280 美元，这意味着大约 10 个月即可收回硬件成本 &lt;a href="http://www.youtube.com/watch?v=qeKJhlmBKFw&amp;amp;t=478" rel="noopener noreferrer"&gt;07:58&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>agents</category>
      <category>ai</category>
      <category>cloud</category>
      <category>infrastructure</category>
    </item>
    <item>
      <title>Sakana AI 最新推出的多智能体编排系统 Sakana Fugu</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Wed, 24 Jun 2026 02:28:51 +0000</pubDate>
      <link>https://dev.to/cognitalk/sakana-ai-zui-xin-tui-chu-de-duo-zhi-neng-ti-bian-pai-xi-tong-sakana-fugu-4n83</link>
      <guid>https://dev.to/cognitalk/sakana-ai-zui-xin-tui-chu-de-duo-zhi-neng-ti-bian-pai-xi-tong-sakana-fugu-4n83</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/FwA1bcpSGiM"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM" rel="noopener noreferrer"&gt;http://www.youtube.com/watch?v=FwA1bcpSGiM&lt;/a&gt;&lt;br&gt;
这视频详细介绍了 Sakana AI 最新推出的多智能体编排系统 &lt;strong&gt;Sakana Fugu&lt;/strong&gt;（包含基础版 Fugu 和最强版 Fugu Ultra） &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=84" rel="noopener noreferrer"&gt;01:24&lt;/a&gt;。&lt;/p&gt;

&lt;p&gt;以下是视频内容的详细总结：&lt;/p&gt;

&lt;h3&gt;
  
  
  核心概念：Sakana Fugu 是什么？
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;多智能体编排系统&lt;/strong&gt;：Fugu 并不是一个单一的基础大模型，而是一个经过训练、专门用来调用和协调其他大模型（包括它自己）的系统 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=36" rel="noopener noreferrer"&gt;00:36&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;单一 API 接入&lt;/strong&gt;：对用户或开发者来说，它就像一个普通大模型一样只有一个 API 接口。它会在后台自动进行模型选择、任务分配、结果验证和最终合成 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=52" rel="noopener noreferrer"&gt;00:52&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;避开出口管制&lt;/strong&gt;：视频提到 Fugu 具备一种“主权 AI”的优势。如果某个模型因为出口管制或服务不可用而无法调用，Fugu 会自动重路由，寻找其他可用模型来替代完成任务 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=148" rel="noopener noreferrer"&gt;02:28&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Fugu 的两个版本 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=84" rel="noopener noreferrer"&gt;01:24&lt;/a&gt;
&lt;/h3&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;Fugu&lt;/strong&gt;：平衡了性能与低延迟，适合日常工作（如代码审查、日常对话或交互式服务） &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=90" rel="noopener noreferrer"&gt;01:30&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Fugu Ultra&lt;/strong&gt;：针对需要多步骤解决的复杂高难度问题进行了优化，会调用更深层的专家智能体池，追求最高的准确性和深度（适用于 AI 研究、网络安全分析、专利调查等） &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=109" rel="noopener noreferrer"&gt;01:49&lt;/a&gt;。&lt;/li&gt;
&lt;/ol&gt;




&lt;h3&gt;
  
  
  基准测试（Benchmarks）表现 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=158" rel="noopener noreferrer"&gt;02:38&lt;/a&gt;
&lt;/h3&gt;

&lt;p&gt;视频展示了 Fugu 在多个测试中击败了 Claude Fable 5、Gemini 3.1 Pro、GPT-5.5 以及 Claude 4.8 Opus：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;LiveCodeBench&lt;/strong&gt;（动态代码测试）：Fugu 和 Fugu Ultra 表现抢眼，大幅超越了 Fable 5 和 GPT-5.5 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=162" rel="noopener noreferrer"&gt;02:42&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=186" rel="noopener noreferrer"&gt;03:06&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;GPQA / Charive Reasoning&lt;/strong&gt;（科学图表与推理）：Fugu Ultra 同样名列前茅，展示了极强的科学推理能力 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=201" rel="noopener noreferrer"&gt;03:21&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=214" rel="noopener noreferrer"&gt;03:34&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;SWE-bench Pro&lt;/strong&gt;（真实软件工程测试）：这是&lt;strong&gt;唯一一个 Fugu 没能击败 Fable 5 的测试&lt;/strong&gt;。因为 Fable 5 专门为长期、远期的智能体任务而设计，而 Fugu Ultra 的设计初衷是在单次复杂的任务中拿到最高分 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=233" rel="noopener noreferrer"&gt;03:53&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=282" rel="noopener noreferrer"&gt;04:42&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  5 大核心应用案例（Use Cases）
&lt;/h3&gt;

&lt;p&gt;视频重点列举了 Fugu Ultra 在具体任务中的惊人表现 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=322" rel="noopener noreferrer"&gt;05:22&lt;/a&gt;：&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;
&lt;strong&gt;自主机器学习研究&lt;/strong&gt;：让 Fugu Ultra 连续运行 14 个小时去优化另一个小 GPT 模型的训练代码，它自主进行了 100 多次实验，不断调整批次大小、模型深度和学习率，最终效果超越了其他匿名大模型 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=328" rel="noopener noreferrer"&gt;05:28&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;金融时间序列预测（炒股）&lt;/strong&gt;：在没有未来视角的情况下，给它 1 万美元初始资金处理 50 周的某股票历史数据（成交量、移动平均线等），Fugu Ultra 最终实现了 &lt;strong&gt;20% 的收益率&lt;/strong&gt;（11,943 美元），而其他顶级模型普遍低于 15% &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=374" rel="noopener noreferrer"&gt;06:14&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;盲棋（Blindfold Chess）&lt;/strong&gt;：不给看棋盘，纯靠内存记录整局棋的状况。Fugu Ultra 连玩 4 把，且对手包含 2100 ELO 的 Stockfish 引擎。其他模型玩着玩着就记错棋盘状态了，而 Fugu 保持了绝对精准，全以将军（Checkmate）获胜 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=427" rel="noopener noreferrer"&gt;07:07&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;从零编写魔方解法（Rubik's Cube Solver）&lt;/strong&gt;：仅用一句提示词在纯 Python 下写出解魔方的代码。Fugu Ultra 编写的代码成功运行并解开了全部 300 个打乱的魔方，而另外两个大模型写出的代码在执行时直接崩溃了 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=459" rel="noopener noreferrer"&gt;07:39&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;机械光圈 CAD 设计&lt;/strong&gt;：设计一个类似相机光圈、多叶片联动的精确机械结构。Fugu Ultra 能够生成完全符合物理逻辑、闭合完好的设计；而其他模型的设计普遍存在缝隙、连接脆弱或无法完全闭合的问题 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=495" rel="noopener noreferrer"&gt;08:15&lt;/a&gt;。&lt;/li&gt;
&lt;/ol&gt;




&lt;h3&gt;
  
  
  如何使用与注意事项
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;访问地址&lt;/strong&gt;：可在 &lt;code&gt;sakana.ai&lt;/code&gt; 网站上使用（但由于数据隐私法案，英国和欧盟用户需要使用 VPN 才能访问） &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=539" rel="noopener noreferrer"&gt;08:59&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;使用形式&lt;/strong&gt;：它不是普通的聊天机器人（Chatbot），需要创建 API Key，通过代码调用 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=555" rel="noopener noreferrer"&gt;09:15&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;计费与消耗&lt;/strong&gt;：提供订阅制或按量付费（Pay-as-you-go）。目前有“买一个月送一个月”的促销，但因为它的底层是调用大量模型，&lt;strong&gt;Token 消耗（Usage）速度非常快&lt;/strong&gt;，钱包烧起来会很快 &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=565" rel="noopener noreferrer"&gt;09:25&lt;/a&gt;, &lt;a href="http://www.youtube.com/watch?v=FwA1bcpSGiM&amp;amp;t=578" rel="noopener noreferrer"&gt;09:38&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

</description>
    </item>
    <item>
      <title>美国前政府人员Dean Ball 加入 OpenAI负责战略未来</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Wed, 24 Jun 2026 02:28:47 +0000</pubDate>
      <link>https://dev.to/cognitalk/mei-guo-qian-zheng-fu-ren-yuan-dean-ball-jia-ru-openaifu-ze-zhan-lue-wei-lai-34ep</link>
      <guid>https://dev.to/cognitalk/mei-guo-qian-zheng-fu-ren-yuan-dean-ball-jia-ru-openaifu-ze-zhan-lue-wei-lai-34ep</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/LG8KXIv0_mA"&gt;
  &lt;/iframe&gt;
&lt;br&gt;
&lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA" rel="noopener noreferrer"&gt;http://www.youtube.com/watch?v=LG8KXIv0_mA&lt;/a&gt;&lt;br&gt;
这段视频是播客节目《认知革命》（The Cognitive Revolution）的一期长篇深度访谈。主持人 Nathan 采访了 Hyperdimensional Substack 的作者、前美国创新基金会（Foundation for American Innovation）高级研究员 &lt;strong&gt;Dean Ball&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=0" rel="noopener noreferrer"&gt;00:00&lt;/a&gt;。&lt;/p&gt;

&lt;p&gt;这期节目的重磅核心在于 &lt;strong&gt;Dean Ball 正式宣布他将加入 OpenAI，创建并领导一个名为“战略未来”（Strategic Futures）的新团队&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=7" rel="noopener noreferrer"&gt;00:07&lt;/a&gt;，该团队的任务是协助 OpenAI 的高管们共同制定前沿 AI 政策 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=15" rel="noopener noreferrer"&gt;00:15&lt;/a&gt;。&lt;/p&gt;

&lt;p&gt;以下是访谈中所涵盖的核心内容汇总：&lt;/p&gt;

&lt;h3&gt;
  
  
  1. 宣布加入 OpenAI 与新团队使命
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;新职位&lt;/strong&gt;：Dean 将加入 OpenAI 领导“战略未来”团队 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=7" rel="noopener noreferrer"&gt;00:07&lt;/a&gt;，直接帮助公司高管规划前沿 AI 政策 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=15" rel="noopener noreferrer"&gt;00:15&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;加入的初衷&lt;/strong&gt;：他认为前沿实验室（Frontier Labs）已经成为一种全新的、极具影响力的“权力中心”，需要全新的政策范式 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=78" rel="noopener noreferrer"&gt;01:18&lt;/a&gt;。此外，这些实验室拥有的关于 AI 现状和未来的内部信息高度差异化，如果不深入其中，作为政策研究者很难做出最出色的工作 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=85" rel="noopener noreferrer"&gt;01:25&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;AI 演进时间线&lt;/strong&gt;：主持人提到 OpenAI 的公开时间线预计在 3 个月后就会出现 AI 研究实习生，并在 21 个月后（2028 年 3 月）迎来全面成熟的自主 AI 研究员 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=23" rel="noopener noreferrer"&gt;00:23&lt;/a&gt;，这让 Dean 的新职位显得尤为关键。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  2. 回顾与反思美国 AI 政策
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;美国 AI 行动计划&lt;/strong&gt;：Dean 回顾了他之前参与制定的美国 AI 行动计划 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=392" rel="noopener noreferrer"&gt;06:32&lt;/a&gt;。他认为该计划中许多对 AI 发展（如网络能力、生物安全风险）的预测在现在看来依然准确 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=413" rel="noopener noreferrer"&gt;06:53&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;政策反思&lt;/strong&gt;：如果能多出两个月的时间打磨，他会试图将目前的几十个分块目标融合成一个更有凝聚力和统一愿景的整体战略 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=569" rel="noopener noreferrer"&gt;09:29&lt;/a&gt;。同时，他认为政府在政策应对上往往过于“被动（reactive）” &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=1054" rel="noopener noreferrer"&gt;17:34&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;国际担忧&lt;/strong&gt;：他在进行民间外交和国际学术访问时，听到欧洲等海外地区最大的担忧是：“一旦发生冲突，美国人会不会直接关掉我们的 AI 模型接口？” &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=936" rel="noopener noreferrer"&gt;15:36&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  3. 前沿 AI 治理与地缘政治
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;供应链与机构博弈&lt;/strong&gt;：节目探讨了 Anthropic 公司所面临的供应链风险认定、美国国防部（Department of War）取消部分合同、以及美国国家安全局（NSA）与 AI 实验室之间关于大规模监控和自主致命武器的红线博弈 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=1458" rel="noopener noreferrer"&gt;24:18&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;权力转移&lt;/strong&gt;：谈到了美国测试和界定 AI 风险的职责可能从原有机构向 NSA 转移的现象及背后的政治因素 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=1525" rel="noopener noreferrer"&gt;25:25&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  4. 时代下的“主角能量”（Main Character Energy）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;核心共鸣&lt;/strong&gt;：Dean 和主持人都感受到，人类正在进入一个历史的“主角能量”时期 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=1730" rel="noopener noreferrer"&gt;28:50&lt;/a&gt;——在这个阶段，在少数关键节点上，个体的人类自主性（Human Agency）将获得前所未有的巨大杠杆和影响力（在机器最终全面超越人类之前） &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=1737" rel="noopener noreferrer"&gt;28:57&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;个人牺牲与学术独立&lt;/strong&gt;：Dean 刚迎来自己的第一个孩子（未满一岁），重返这一风口浪尖的领域无疑需要极大的个人生活牺牲 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=1873" rel="noopener noreferrer"&gt;31:13&lt;/a&gt;。但值得庆幸的是，即便加入了 OpenAI，他依然保留了在 Hyperdimensional Substack 上公开撰写 AI 政策文章的独立自由 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=2014" rel="noopener noreferrer"&gt;33:34&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;




&lt;h3&gt;
  
  
  5. 团队招募
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;在节目的尾声，Dean 透露他的新团队接下来将会&lt;strong&gt;对外招人&lt;/strong&gt; &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=8931" rel="noopener noreferrer"&gt;02:28:51&lt;/a&gt;。虽然规模不会很大，但如果有人对前沿 AI 政策感兴趣，可以通过他的个人网站（deanball.com）或订阅他的 Hyperdimensional 邮件列表直接向他投递简历 &lt;a href="http://www.youtube.com/watch?v=LG8KXIv0_mA&amp;amp;t=8947" rel="noopener noreferrer"&gt;02:29:07&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

</description>
    </item>
    <item>
      <title>0621银行海量客户应如何建立“人性化”情感连接</title>
      <dc:creator>cognitalk</dc:creator>
      <pubDate>Wed, 24 Jun 2026 02:28:38 +0000</pubDate>
      <link>https://dev.to/cognitalk/0621yin-xing-hai-liang-ke-hu-ying-ru-he-jian-li-ren-xing-hua-qing-gan-lian-jie-3o5n</link>
      <guid>https://dev.to/cognitalk/0621yin-xing-hai-liang-ke-hu-ying-ru-he-jian-li-ren-xing-hua-qing-gan-lian-jie-3o5n</guid>
      <description>&lt;p&gt;  &lt;iframe src="https://www.youtube.com/embed/A4d0PjVyfsI"&gt;
  &lt;/iframe&gt;
&lt;/p&gt;

&lt;p&gt;&lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI" rel="noopener noreferrer"&gt;http://www.youtube.com/watch?v=A4d0PjVyfsI&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;在这段来自 &lt;em&gt;Banking Transformed Podcast&lt;/em&gt; 频道的视频中，主持人 Jim Marous 深入探讨了&lt;strong&gt;为什么银行空有海量的客户数据，却常常错失与客户建立“人性化”情感连接的时刻&lt;/strong&gt;。&lt;/p&gt;

&lt;p&gt;视频的核心内容可以拆解为以下几个关键部分：&lt;/p&gt;

&lt;h3&gt;
  
  
  1. 被“程序化”的客户关系 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=0" rel="noopener noreferrer"&gt;00:00&lt;/a&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;虚假的关心&lt;/strong&gt;：主持人分享了自己的亲身经历——他的客户经理每季度都会打电话来“关怀”业务，但他通常选择不接并转入语音信箱。因为这种电话听起来就像是银行员工在完成一项“必须打勾”的机械任务，而不是真正关心他。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;情感纽带的缺失&lt;/strong&gt;：客户能够敏锐地分辨出什么是“被程序化的管理”，什么是“真正的关心” &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=17" rel="noopener noreferrer"&gt;00:17&lt;/a&gt;。如果银行的每一次互动都只是在走流程，客户和银行的关系就会越来越疏离。虽然客户可能还会继续使用这个账户，但只要竞争对手提供更好的利率或更走心的服务，他们会毫不犹豫地离开 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=52" rel="noopener noreferrer"&gt;00:52&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  2. 其他行业的“高光时刻”案例 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=64" rel="noopener noreferrer"&gt;01:04&lt;/a&gt;
&lt;/h3&gt;

&lt;p&gt;主持人通过其他行业的三个小故事，说明了什么才是让人铭记的“人性化时刻”（这些举动成本极低，甚至不需要提前审批）：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;达美航空 (Delta)&lt;/strong&gt;：机长送来了一张由全体机组人员亲笔签名的感谢卡，这让主持人感到意外和惊喜，甚至将其分享到了社交媒体上 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=100" rel="noopener noreferrer"&gt;01:40&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;诺德斯特龙百货 (Nordstrom)&lt;/strong&gt;：主持人在旅行时忘了带西裤，商场员工得知后，特意在正式营业前提前为他开门，并准备好了几种尺码的裤子供他选择，还当场完成了修改 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=118" rel="noopener noreferrer"&gt;01:58&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;迪士尼乐园 (Disney World)&lt;/strong&gt;：主持人的侄女在刷手环排队时，游乐设施的虚拟角色直接喊出了她的名字，让全家人至今都在津津乐道 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=130" rel="noopener noreferrer"&gt;02:10&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;核心反思&lt;/strong&gt;：迪士尼仅凭一个下午、一个手环和孩子的中名，就能让客户感到被重视；而银行参与了客户多年的生活（看着薪水到账、房租支出、存款增加、贷款减少），却对此视而不见，错失了无数制造美好回忆的机会 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=166" rel="noopener noreferrer"&gt;02:46&lt;/a&gt;。&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h3&gt;
  
  
  3. 银行该如何改进？ &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=199" rel="noopener noreferrer"&gt;03:19&lt;/a&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;让流程变成真正的对话&lt;/strong&gt;：解决办法不是取消季度关怀电话，而是给员工一个&lt;strong&gt;真正有意义的理由&lt;/strong&gt;去致电。例如，聊聊客户所在行业的新动态、竞争对手的举动，或者当地其他企业的成功故事，让通话从“读脚本”变成“有价值的交流” &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=200" rel="noopener noreferrer"&gt;03:20&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;小手艺带来大连接（以 TD Bank 为例）&lt;/strong&gt;：TD Bank 延续了在网点提供棒棒糖和宠物饼干的传统。他们近期在费城推出了“狗狗专属 ATM 自动零食机”——当狗狗走近时会掉落免费饼干 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=241" rel="noopener noreferrer"&gt;04:01&lt;/a&gt;。这台机器不卖任何东西，但它让银行网点变得更有温度，甚至有客户专门带狗回到网点来体验 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=268" rel="noopener noreferrer"&gt;04:28&lt;/a&gt;。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  4. 管理层需要做出的改变 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=287" rel="noopener noreferrer"&gt;04:47&lt;/a&gt;
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;赋权给一线员工&lt;/strong&gt;：就像丽思卡尔顿酒店 (Ritz-Carlton) 信任员工并允许他们支配一定额度来解决客户问题一样，银行也需要信任一线员工，允许他们根据常理做出人性化的反应 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=66" rel="noopener noreferrer"&gt;01:06&lt;/a&gt;。例如，当得知客户痛失挚爱时，一个 sensible（理智且贴心）的举动应当是全网点共同签名送上一张慰问卡，而不是仅仅在系统文件里做个冷冰冰的记录 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=324" rel="noopener noreferrer"&gt;05:24&lt;/a&gt;。&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;改变考核指标&lt;/strong&gt;：如果银行只考核“打了多少个电话”或“发了多少封信”，员工就会为了完成 KPI 去打那些让人想挂断的电话 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=330" rel="noopener noreferrer"&gt;05:30&lt;/a&gt;。管理层应该更多地去记录客户的真实反应和员工创造的走心故事。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  总结 &lt;a href="http://www.youtube.com/watch?v=A4d0PjVyfsI&amp;amp;t=403" rel="noopener noreferrer"&gt;06:43&lt;/a&gt;
&lt;/h3&gt;

&lt;p&gt;对绝大多数金融机构而言，这&lt;strong&gt;根本不是技术问题&lt;/strong&gt;，因为数据和机会每天都在眼前。真正困难的抉择在于：&lt;strong&gt;银行是否愿意信任并允许员工，以一种更具人情味的方式去使用银行已经掌握的这些客户信息。&lt;/strong&gt;&lt;/p&gt;

</description>
    </item>
  </channel>
</rss>
