cognitalk

Posted on Jun 29

Atlas Wang 对谈：符号 AI 与神经网络以及金融高频交易的 AI 化

#deeplearning #machinelearning #ai #performance

https://www.youtube.com/watch?v=mq3QkSfrkPk

1.大白话谈播客内容说了啥

播客里那些比较专业的内容，用大白话给你捋一遍。主要讲了三件事：

第一件：现在的AI大会到底变成啥样了？

人特别杂：以前是学者交流的地方，现在挤满了投资人、猎头、销售。你随便拉个人聊天，对方可能根本不是搞研究的，而是来挖项目或者找人才的。
好玩的在边角料：主会场有时候挺无聊，真正有意思的新点子往往藏在各种小型的“研讨会”（Workshop）里。那里人少，但聊的都是最前沿、还没成型的东西，氛围纯粹。
大佬也来摆摊：像嘉宾Atlas，他既当教授又在一家叫XTX的金融公司当高管。开会时他一边要带学生展示论文，一边还得在公司展台当两天“销售”招人，忙得脚不沾地。

第二件：嘉宾自己的核心研究——“逼”AI说出人话

这是对话的重点。Atlas的核心思想是：现在的AI像个黑盒子，虽然厉害但说不清自己怎么想的。他想让AI学会用简单的公式或规则来表达自己的结论。

为什么要这么做？
- 为了快：比如让AI控制网络拥堵，如果用神经网络来做，反应慢。但把它“翻译”成一个简单的决策树（像流程图一样），速度能快几百倍。
- 为了让人看懂：比如让AI玩游戏，它学会了判断。但它是靠什么判断的？是看到了红色方块还是听到了声音？如果能把它学到的规则提炼成“看到红色方块就向左转”这样的符号逻辑，我们就懂了。
他做了什么？
1. 理论突破：他和学生从数学上证明了一个事儿——AI在学习过程中，确实有能力自己找到背后那个最简单的规律。比如，物理学家发现万有引力公式是 ( F = G \frac{m_1 m_2}{r^2} )，这个公式非常简洁优美。Atlas证明，理论上AI也能通过“试错学习”（梯度下降）找到类似的简洁公式，而不是给出一个复杂到没人看得懂的近似函数。
2. 现实困境：不过，目前这个证明还停留在“理论上存在这种可能性”的阶段，就像我们知道彩票大奖肯定存在，但暂时还没法保证每次都能精准刮到。要把这个理论变成一个好用的工具，还需要很长时间。

第三件：AI在金融领域（特别是高频交易）怎么用？

Atlas现在工作的XTX就是一家做高频交易的顶级公司。

他们在干什么？
- 核心任务就是预测股价。但不是预测明天涨跌，而是预测未来几毫秒甚至几纳秒的价格变化。他们需要分析海量的实时交易数据（价格、成交量等），从中找出微弱的信号。
难点在哪？
- 全是噪音：金融市场极其混乱，99.99%的数据都是随机波动。他们的工作就是在垃圾堆里找金子，把预测准确率从50%（猜大小）提升到50.01%。别看只多了0.01%，因为交易量巨大，这微小的优势就能带来惊人的利润。
为什么AI适合干这个？
- 传统方法不行了：过去用简单的数学模型（线性回归）就够了，但现在市场竞争激烈，必须用更先进的AI技术来捕捉更复杂的模式。
- 门槛极高：不像聊天机器人可以用网上公开的数据训练，高频交易用的数据是独家的、私有的，外面根本拿不到。这就形成了很强的技术壁垒。Atlas也说，金融行业可能是最后一批被AI完全攻克的堡垒之一，因为它的数据和经验积累太深厚了。

总结一下

这场对话的核心观点就是：AI的未来不只是把模型越做越大，更要让它变得可解释、有效率。 嘉宾一方面在理论上探索如何让AI学会用简洁的符号（如公式）思考，另一方面又在实践中，把AI用在了对速度和精度要求极高的金融交易里，并认为这个领域对AI研究者来说是一片充满机遇的蓝海。

2.播客里哪里聊了"符号神经网络 / Neuro-symbolic AI"

播客里聊"符号神经网络 / Neuro-symbolic AI"主要集中在 第（三）部分（约全文 22%–52% 那一段），也就是 Atlas 讲自己研究主线那段，核心是从"低维压缩"滑到"把 NN 压成符号"的那条线。具体节点给你标一下：

📍 入口：Alan 追问"符号 NN 到底是什么、为什么要 care"

Atlas 刚提完他那篇 theory paper（NN 用梯度下降可证明学符号方程），Alan 拦了一下让回退一步：

"What does it mean actually like symbolic neural network, how you actually look why we need to care about it?"

Atlas 的回答是整个符号线的大框架——逻辑、规则、关联关系本来就能用符号写；他眼里的"终极压缩"不是把 NN 蒸馏成更小的 NN（pruning / low-rank / MoE 那种 10x–100x），而是把 NN 压成非 NN 的形式，能写进教科书的人可读知识。这一段是整段符号论的"总纲"。

📍 关联规则 / Apriori 怀旧（Alan 接话）

Alan 说自己入门 ML 就是啃 Apriori 和关联规则挖掘，还举了 Target 孕期预测那个经典（apocryphal）故事。这里其实是 symbolic AI 的老祖宗方向被顺带捞出来对照——现在 NN 时代把无监督/聚类/降维贬低了，但 SAM（Segment Anything）那种"图像自动按语义切"本质上还是当年那条路的延伸。Atlas 接了一句"关联记忆（associative memory）每天都在用"，算是点头认了这条血脉。

📍 实用动机两段（Atlas 自述做符号的"功利心"）

Alan 问"practically 你想干嘛"，Atlas 给了两个落地：

效率：把 RL 控网络拥塞转成决策树，CPU 上 400–500× 加速——比任何 NN 压缩都狠。
可解释性：Open Gym 简单视觉环境里，把 CNN-based RL 转成符号树，自动把色块 grounding 成物体再用逻辑算子组合，类似"中间层视觉"的自动分割。Atlas 自己承认复杂场景 scaling 不行（只在 Minecraft 类简单环境玩过）。

这两段是 symbolic NN 的"实证分支"——NN → 符号树/决策树，能跑能解释。

📍 理论那段（整集最"硬"的一块）

牛顿第二定律 1/r² 的例子：如果牛顿今天拿 NN 去 fit 引力数据，NN 大概率吐不出干净的 1/r²，只会给个 messy 近似——因为 NN 的归纳偏置里没有"学干净紧凑方程"这一项。这是为什么需要符号学习的motivation 例子。
他们做的理论：合成数据学多项式，假设数据生成过程带代数结构（群、环），用梯度流的测度空间分析，证出梯度下降确实能让 NN 精确收敛到 underlying 符号结构——连续动态够到离散目标。
Caveat：Atlas 自己坦白，目前是存在性证明不是构造性证明——类比 lottery ticket（知道初始化某处存在那张票，但不知道怎么直接拎出来）。离"不经 over-parameterized 训练直接拿到符号方程"这个 holy grail 还有距离。

📍 后面还有两段"广义 neuro-symbolic"的延伸，不算核心但有关

Alan 举的偏方：让 LLM 自己生成 anti-spam 的 if-else 规则决策树，极便宜可解释。Atlas 评：这本质是把信仰压在 model alignment 上，但让 LLM 产符号、再接 domain 的 symbolic checker（比如合规校验 → DPO 反馈循环），广义上也算 neuro-symbolic，他们组也做过。
JEPA / world model 那段 Rabbit 问的时候，Atlas 提了一句"JEPA + MPC 那套漂亮，和 Koopman operator 也深连"——Koopman 那条本质是把非线性动态映射到线性符号空间，也算符号谱系里的亲戚，但 Atlas 没展开，只说 JEPA 不是万能解。

所以严格意义上的"符号神经网络"主菜就是 第（三）部分那段从 Alan 追问定义 → 实用两段 → 牛顿例子 → 理论证明 → caveats，大概占全文近三分之一。后面 LLM 自产规则 + JEPA 是边角延伸，如果想抠"NN 怎么学到离散符号结构"这一脉，主菜那段就够了。

3. XTX Markets 这家公司的起源与发展历史

XTX Markets 这家公司挺有意思的——它是 2015 年才从 GSA Capital 分拆出来的"青年军"，但现在已经做到外汇做市全球前三、英国纳税第一名，而且全程没拿外部投资，靠的全是自研算法。下面把它的来龙去脉给你串一下。

🧑🎓 创始人：Alex Gerko，俄裔数学博士

莫斯科国立大学数学博士，原本打算走学术路线，但自觉成不了"世界级知识分子"，转去工业界。
先到伦敦 德意志银行 做量化，后来跳槽 GSA Capital（一家从德银分拆出来的英国量化对冲基金），在 GSA 一手搭起了外汇交易部门，再扩展到别的资产类别。
但他更愿意把交易利润 reinvest 回业务，而不是分给外部投资人——这和 GSA 的利益不一致，于是谈分拆。

🏗️ 2015：XTX 诞生

2015 年 1 月 30 日 在伦敦注册成立，团队就是从 GSA 带出来的一小撮交易员加一点启动资金，是 GSA 的 spin-off。
名字 XTX 取自线性回归里的符号（XᵀX，没错就是那个矩阵转置乘矩阵），数学味拉满，也很符合创始人的博士审美。
联合 CEO 是 Zar Amrolia（前德意志银行外汇主管），和 Gerko 搭班子。

📈 成长路径：从外汇做市切银行的蛋糕

XTX 做的事叫 non-bank liquidity provider / 电子做市商——简单说就是不靠银行柜台，用算法在外汇、股票、债券这些市场挂买卖单，吃价差（spread），同时给市场提供流动性。

2016：Euromoney 全球外汇流动性提供商榜单 第 9 名，市场份额 3.87%——这是历史上第一次非银行机构挤进前十。
2018：冲到 全球第 3，非银第一，把一堆老牌投行（花旗、摩根大通、瑞银这些）都超了。
切的是什么蛋糕？传统外汇场外交易是伦敦金融城那些大投行交易台主导的，"知道该打给谁"很重要；XTX 用算法+机器学习把这块"关系型生意"变成了"预测型生意"，银行的人海战术打不过它的延时和模型。

🌐 业务扩张：从 FX 到全覆盖

最早只做外汇 OTC，后来一路往外扩：

外汇（基本盘，全球 Top 3）
股票 / 固收 / 商品 / 加密——现在官网说自己覆盖 5 万+ 金融工具，每日交易量约 1120 亿美元（第三方媒体口径更高，说 2500 亿）
Atlas Wang 那条线（UT Austin 教授 + XTX 研究总监）就是这时候进的——公司要从"外汇做市"升级到"多资产时序基础模型"，所以需要搞大模型的人。

💰 几个"出圈"的数据点

人员极精简：大约 250 名员工跑 2500 亿日均交易量，不雇传统交易员，全员算法+研究+开发。
Gerko 持股 75%，无外部投资人，利润归合伙人间分，所以滚雪球极快。
AI 基建狠：研究集群 11,000 张 GPU、309 PB 存储；2025 年宣布在 芬兰砸 10 亿美元自建数据中心（不是租，是自己盖 5 座里的第一座），因为算力就是它的生产资料。
2025 年营业利润 23 亿美元，Gerko 个人交了 6.6 亿英镑所得税，英国纳税王。
慈善：2020 起承诺捐 2.5 亿英镑，重点砸数学教育（资助低收入背景学生读数学/PhD、加速突破研究），和他自己的背景呼应。

🇷🇺➡️🇬🇧 一些八卦

Gerko 俄裔，但已放弃俄罗斯公民身份，给乌克兰捐了几千万英镑——俄乌战争后这个立场在俄裔金融圈里挺显眼。
公司总部伦敦，办公室挂阿波罗 11 号复刻模型，Gerko 个人审美偏"硬核理工浪漫"。
和 Citadel Securities、Jump Trading 这类美国非银做市商并列，但 XTX 的特点是更偏欧洲根基 + 更重机器学习预测而不是纯速度军备竞赛——这也是为什么 Atlas 那期播客里他说"我们不做那种比谁光纤短的 game，我们比的是预测准不准"。

4.播客的完整内容要点

根据这期《Information Bottleneck》播客 EP19（嘉宾 Atlas Wang，UT Austin 教授 / XTX 研究总监）的文字稿，按话题流转与 token 占比（粗略估算时间百分比）切分如下，并附整文总标题。

整文总标题

「EP19｜Atlas Wang 对谈：NeurIPS 现场观察、符号 AI 与神经网络可证明学方程，以及金融高频交易的 AI 化」

第（一）部分　开场寒暄与嘉宾介绍（约 0% – 4%）

1 嘉宾身份与互相调侃：Rabbit 和 Alan 介绍本期嘉宾 Atlas Wang——UT Austin 教职、XTX 研究总监、常住纽约，也是两人好友。Atlas 开玩笑回应“special guest”到底特殊在哪：UT 教职 / XTX 研究总监 / 好友 / 住纽约，四人笑称“mostly 是好友”。
2 纽约冷天与线下聚首：Alan 补一句很高兴和两位在同一个城市（纽约），一起在极冷的天气里“瑟瑟发抖”，顺便提到上次 NeurIPS 只简短聊过，这次借播客把对那场会议的看法合一下。

第（二）部分　NeurIPS San Diego 参会体验与会议生态观察（约 4% – 22%）

1 Atlas 的双身份参会视角：Atlas 以“学术 + 工业”双重帽子参会——带学生去投海报，同时 XTX 是铂金赞助商，他在展台站了两天见人。感觉比纯学术累，但圣地亚哥的暖气和“生成式 AI × 金融”的热度都让他印象深刻。
2 Alan 的三个观感：① 高兴看到不少 LLM sampling 研究（自己公司 Thoughtworks 在做 sampling lab，想挖人）；② 狂吐槽官方 App Hoova 做得烂，功能远不如 NeurIPS 2024，导致他反而被迫多线下问路、看电子屏，体验倒退；③ 圣地亚哥很美，加州人意外地松弛，workshop 质量不错，人多总体是好事，只要不稀释投稿质量。
3 NeurIPS 非研究者比例更高的现象：Alan 指出 NeurIPS 比 ICLR 更吸引非研究者，“随便抓一个人有 paper 的概率更低”，有时想跟 researcher 吃饭却被 VC 包围。Atlas 接话：自己其实不讨厌——XTX 本身有 VC 团队，而且他纽约飞圣地亚哥的航班上邻座就是 VC，对方能报出 Atlas 好几篇 paper 标题，学生都不一定记得住，Atlas 表示受宠若惊。
4 VC 读 paper 的动机：VC 每天刷 archive / Google Scholar 是为了在“好钱坏钱”里做判别，难度不亚于审稿人选 paper，所以 Atlas 对“更广的圈子在读我们 paper”这件事反而没那么 sarcastic。
5 会议性质的混合与 workshop 的价值：三人讨论“会议到底该是什么”——传统是 peer 交流，现在混了招聘、VC 扫人、公司品牌。Atlas 个人把 NeurIPS 当“一次性低成本见朋友”的旅行，学术上新作基本会前 6 个月就知道了。他更偏好 workshop：main conf 利益绑定太多（作者/审稿人互 pressure），workshop 更纯，敢放 half-baked 的前沿想法。
6 workshop 的“旱涝不均”：Alan 举去年 Yosua Bengio 组织的 Pluralism & Creativity workshop（还请了《Arrival》作者 Ted Chiang），房间塞了 700-800 人消防局得来管；但他自己去的 stochastic sampling workshop（P@k 解码相关，min-p 后续）满打满算 50 人。同是 workshop，流量天差地别。
7 小房间≠低回报：Atlas 补自己今年也 co-organize 了“生成式 AI for Finance”workshop，同样爆满；但他更珍惜优化 workshop 那种“15 个人全懂你工作”的小房间——signal-to-noise 才是关键。他也顺带提了自己今年在组织这一方向。

第（三）部分　Atlas 的研究主线：从低维压缩到符号 AI（约 22% – 52%）

1 PhD 背景与“低维”情结：Atlas PhD 做统计/信号处理/优化，第一个方向是 compressive sensing，后来做低秩、流形，再后来发现大家全跑去 deep neural network 了只好跟进，但惊喜地发现 over-parameterized NN 里反而有更多机会实践低维理解——pruning、lottery ticket、低秩、MoE 都是例子。
2 最近一年最喜欢的 paper（偏理论）：标题大概是“NN 如何被梯度下降可证明地学习到符号方程”。现有深度学习理论大多证梯度动态会把 NN 推向稀疏/低秩/低熵这类结构化解，但从连续动态到“离散符号结构学习”的 gap 一直没 closing。
3 为什么关心“符号化”：Alan 帮听众追问——符号 NN 到底是什么、为什么要 care。Atlas 答：逻辑、规则、关联关系本就可以用符号写；他眼里的“终极压缩”不是把 NN 蒸馏成更小的 NN（low-rank / sparse / pruning 顶多压 10x–100x），而是把 NN 压成非 NN 的形式——可写在教科书上的人类药物知识，那才是最优压缩。人类可读的符号语言 = 最终形态。
4 关联规则挖掘的怀旧：Alan 接话提到自己入门 ML 就是 Apriori 和关联规则挖掘，Target 孕期预测那个经典（apocryphal）故事，觉得“降维/无监督/聚类”被 NN 时代不公平地贬低了。举 SAM（Segment Anything）为例——理想的图像聚类就该像 SAM 那样把图按语义切。人类婴儿早期基本是 unsupervised（苹果≠玻璃杯），Alan 家一岁娃天天在验证这点。
5 Atlas 的“实用 → 理论”回答：先讲实用动机——

效率：把 RL 控网络拥塞转成决策树，CPU 上直接 400–500× 加速，比任何 NN 压缩算法都狠；
可解释性：在 Open Gym 简单视觉环境里把 CNN-based RL 转成符号树，自动把色块 grounding 成物体再做逻辑组合，类似“中间层视觉”的自动分割。Atlas 承认这玩意复杂视觉场景 scaling 不好（只在 Minecraft 类简单环境玩过），但证明了 NN 学的其实是“感知模块 + 可组合逻辑”。 6 同行工作：Flatiron、剑桥的 Milk 组也在做符号回归，大家方向一致。 7 理论部分的动机——牛顿第二定律的例子：Atlas 用高中时的疑问类比：为什么引力是 1/r² 不是 1/r^{2.015}？物理 PhD 可以从积分推出，但如果牛顿今天拿 NN 去 fit，NN 大概率吐不出干净简洁的 1/r²，只会给个 messy 的近似——因为 NN 的归纳偏置里没有“学干净紧凑方程”这一项，而“干净”本身又是很强的人类先验。 8 他们做的理论工作：从合成数据学多项式起步，假设数据生成过程带代数结构（群、环），用梯度流的测度空间分析等工具，证出梯度下降确实能让 NN 精确收敛到 underlying 的符号结构——连续动态够到离散目标，这件事 Atlas 自己很兴奋。 9 理论的 caveats：Alan 追问后 Atlas 坦白——目前是存在性证明，不是构造性证明（类比 lottery ticket：知道初始化的某处存在那张票，但不知道怎么直接拎出来）。离“不经过 over-parameterized 训练直接拿到符号方程”这个 holy grail 还有距离。

第（四）部分　推理、数据、架构收敛的延伸讨论（约 52% – 65%）

1 Reasoning / CoT 是不是必经之路：Rabbit 追问——chain-of-thought / reasoning model 这一类，长期看是 essential 还是只是当前局部最优？Atlas 答得松：不确定 RL-style reasoning 在“数据足够好”的前提下是不是必须。所有算法都是在高维数据空间里 search，架构/优化只是给一个好的 inductive bias 让 search 起点暖一点；如果目标分布采样够好，纯随机 search 也许也能到。他在 XTX 做大模型训练后，信念从“精雕算法”往“问题设定 + 数据分布”挪了——后者带来的性能提升更猛。
2 Alan 举的“让 LLM 自己生成 anti-spam 决策树”的偏方：prompt 模型产出关键词/if-else 式规则，得到可解释极便宜的分类器，效果不差。问 Atlas 怎么看。Atlas 答：这本质是把信仰压在 model alignment 质量上——让 LLM 自己产符号，广义上也算 neuro-symbolic AI（语言本身是符号，可接 domain 的 symbolic checker）。他们组也做过让 LLM 提 plan → 送合规 checker → DPO 反馈循环的方向。
3 JEPA / world model 插曲：Rabbit 问 JEPA（Yann LeCun 那条线）和“内部状态随时间演化”是不是也算某种符号模型的近亲。Atlas 说 JAPA（应为 JEPA）那套 MPC + JEPA 表示结合很漂亮，和 Koopman operator（他感兴趣的 NN 动态方向）也深连，但不觉得 JEPA 是 deep learning 所有问题的通用解——每算法都得 assume 点什么，“所有模型都错，有些有用”，JEPA 属于 useful 那一档。
4 架构会不会收敛：Rabbit 再问——是不是“数据够好一切算法都会收敛到同类解”。Atlas 答 yes and no：NN 是 universal approximator 90 年代就知道了，但后面 30 年还是出了 ResNet、Transformer、Fast RNN（刚得 test of time award）——理论上能学到 ≠ 实验上能训出来，优化稳定性、超参、架构对 DDP/FSDP 的友好度这些“彩票式设计选择”在过去 DL 进展里占比不成比例。所以他做研究（尤其工业侧）不再宗教化“算法对错”，只看“当前生态下合不合适”。

第（五）部分　合成数据、金融（高频交易）场景落地（约 65% – 82%）

1 Alex Dimakis 那篇“少问题多答案更好”的梗：Rabbit 提到 Berkeley 的 Alex Dimakis 观察到——标 1 万道题每道 1 答，vs 500 道题每道 2 答，后者训出来更好，mix of question-info / answer-info 的相互作用很怪。Atlas 说第一次听这个具体例子但能 buy——联想到 Dimakis 另一篇“只用 1 道题做 RL 让模型换不同方式反复解、自我改进”的 paper，挺 inspire。
2 高中刷题的类比：Atlas 拿自己高中数学老师的话类比——老师不让狂刷不同题，让盯一本选集同一道题反复做、做出比标准答案更好的解法。“反复嚼一道题”比“尝一口就换菜”榨出的信息价值更高，所以“深 > 广”在某些 regime 成立。
3 合成数据是少数领域的奢侈品：Atlas 框定——语言/视觉/语音（他不搞语音）才有，因为这些域判别式模型先走通了（ImageNet 最初不是为生成建的，LiDAR 最初为 caption，都不是生成），攒够了高质量判别数据，才能走到生成、才能谈合成数据。而高频交易是他现在待的“非常不幸的域”——生成模型还生成不了真实股票市场，谁搞出来可以找他聊。
4 高频交易的问题定义：最典型 entry-level quant 题是多时序预测——输入交易所 tick 级价/量/成交/元数据，多股票联合，预测未来一小段 horizon 的价或方向。y = f(x)，古典定义。
5 难在哪：数据不缺（交易所每秒 tick 涌过来），缺的是高质量信号——不是机械/传输错误，是市场本身噪声主导，“预测噪声里的噪声”，散户想 beat 市场极难（S&P 是强风险中性基线）。quant 拼的是把准确率做到“略高于零”，但高频每天/每年交易量天文数字，大数定律把微小 margin 放大成真金白银——这就是他们干的。
6 多主体博弈：Rabbit 问是不是因为“即使信息全也不 deterministic”。Atlas 确认——市场是多主体博弈，analytical solution 不可能；高频因为 horizon 短，理论上“别人来不及 plot against 你”，但近几年也未必了，细节不多谈。
7 生成式 AI 进金融的真实趋势：Alan 补——金融圈过去模型保守（线性回归/Lasso/树），现在确实在往 ML 前沿靠。XTX 这类已经吃到生成式 AI 红利，所以趋势真。不同金融细分用法不同：有的用 LLM 自动化 workflow，有的用 foundation model 爬社媒做 sentiment（alternative data），XTX 这种是自己建时序基础模型——不是符号语言 FM，是数值连续流时序 FM。
8 “说服金融人只能靠年化收益，不能靠 paper”：Atlas 点透——这点和 tech 不一样，金融动态滞后于 tech 平滑，但已经有成功案例（年化跑出来），所以会继续投，部分会成。

第（六）部分　招聘画像、AI 研究建议与收尾（约 82% – 100%）

1 Quant 招聘画像的变化：过去经典画像 = 数学/物理 PhD。现在 frontier 金融 AI 公司（他造的词）的 hiring bar 越来越对齐 frontier AI lab——候选人池里天天有人拿着 OpenAI / Gemini offer 来面。但金融侧还剩一个独特偏好：数学+统计底子，比如“抛 1000 次硬币”类问题还是会考，因为时序数据太噪，从 clean 语言 FM 桥到 noisy 非结构时序，中间很多数学变换要做。
2 “会写代码的数家，或会说数学的工程师”：这是他们组（原话是团队 slogan 不是他原创）的 motto，两句话说的是一个意思。
3 学位焦虑插曲：Rabbit 扯到“AI 会写代码了，将来还要不要学线性代数/微积分”——他自己仍信过去 30 年“越 mathy 越好”是对的，但纯 AI/ML 研究未来是不是还这样不确定。Alan 抖机灵“赶紧去考水管工执照”，因为蓝领体力活比很多工种抗 AGI 时间长——引战到 munition 替代士兵比水管工容易。Atlas 补一句：金融也属于“公开模型难渗透私有数据积累”的域，几十年私有数据战争 public knowledge 盖不住，这也是金融 AI 的护城河。
4 Gemini / GPT / DeepSeek 拿真钱账户交易两个月比赛怎么看：Alan 问，Atlas 答“我不会放自己钱进去”，笑过。
5 Atlas 为什么选 XTX 不选 LM foundation lab：他自认聪明人，进 LM lab 有人带也能学会 pre/post-training；但进 XTX 是“全世界可能几十个人知道怎么把这事做起来”的位置——独特数据 + 充足 GPU + 人才密度，他喜欢研究路径的 uniqueness。劝新 grad 认真看金融 AI 这条线：① 已经有人证了能赚钱，所以 AI 在金融的爆炸会来；② 给钱“reasonably or unreasonably well”；③ 相比 tech 可能 work-life balance 还好点。
6 WLB 尾巴：Rabbit 说以后可以单聊 WLB，有些公司真懂有些灾难，但年轻人被文化推着卷 20 小时/天也不一定出更好结果。Atlas 看他毕业 PhD 的小样本——有人活得开心有人社交蒸发，vesting schedule 祝大家好运。
7 收尾：互谢，Atlas 说聊完反而 energized，会把那篇符号 paper 甩他们。bye。片尾有段乱入的 “Hey Heat” 应该是录音室彩蛋/切错轨，忽略。

DEV Community