Lukasz Kaiser（Transformer八子之一）谈后 Transformer

#ai #podcast #algorithms #posttransformer

https://www.youtube.com/watch?v=N1geOimmdDo
这期播客是 Jacob Effron 主持的 Unsupervised Learning 嘉宾是 AI 领域的传奇研究员 Lukasz Kaiser （他是奠定现代 AI 基础的 Transformer 论文《Attention Is All You Need》的共同作者之一，曾先后在 Google Brain 和 OpenAI 任职）。

在这场长达 1 个多小时的深度对话中，Lukasz 极其坦诚地分享了关于大模型瓶颈、架构演进、AI 编程（Coding）爆发以及他在 OpenAI 的经历。以下是无遗漏的详细内容总结：

1. 泛化与“后 Transformer”时代的争论

泛化能力的瓶颈：Lukasz 提到一个有趣的观察，人类可以通过极少的数据掌握概念，而大语言模型（LLM）更像是“在穷尽了所有其他错误选项后，才会极不情愿地学会真正的概念” [03:10]。它们需要万亿级（Trillion）的 Token 才能把表面现象和底层逻辑区分开。
空气中的那股“味道”（Whiff in the air）：目前旧金山 AI 圈（特别是各种派对和 NeoLabs 创业潮中）有一种强烈的直觉：Transformer 架构可能存在某种极限 [05:05]。许多研究员纷纷跳出大厂成立新实验室，试图寻找能用更少数据、实现更深层理解的“下一代架构”。
反方观点：也有人（如大厂主流派）认为，既然我们有海量数据和算力，为什么要在意它像不像人类？但 Lukasz 指出，当虚拟世界的数据红利被吃完后，物理世界（如机器人、自动驾驶）将面临极度的数据限制 [09:24]。
自动驾驶的隐喻：他以 Waymo 为例开玩笑说，自动驾驶在城市里开得很好，但一旦遇到高速公路上的修路施工区（Construction Zone）就可能退缩。这种无法举一反三的现象，在人类（甚至是青少年司机）身上是不可想象的，说明模型缺乏真正的空间和物理泛化能力 [10:12]。
架构微调的可能：他本人对循环（Recurrence / RNN）仍深怀感情，认为未来 attention 还会存在，但可能会融合循环机制或 sparse 损失函数，用来解决类似数独或复杂推理的问题 [11:59]。

2. 编程智能体（AI Agents）的爆发与 2025 圣诞节点

生产力的定量飙升：Lukasz 认为过去半年 AI Agents（如 Codex、Claude Code）给他的研究方式带来了近 20 年来最大的改变 [13:48]。他曾尝试在私有设备上复现几篇自己以前丢失了代码的老论文：以前纯手工需要花 3 周时间，现在配合 Codex 只要 2 天，效率提升了 5 到 10 倍 [14:14]。
“心智控制权”的转移：由于 AI 承担了写类名、调底层函数等繁琐工作，研究员可以完全开启“心流模式”，只在脑海里全局把控机器学习的架构、Loss 走向和 Batch 大小。但他警告，AI Agents 会“脱轨”，比如有时它会自作聪明地添加一些完全不需要的辅助损失函数（auxiliary loss），所以人类必须像鹰一样死死盯着它 [15:34]。
未解的“圣诞之谜”：他指出，AI 编程能力的巨大飞跃大约发生在 2025 年的圣诞节前后 [21:22]。神奇的是，这种飞跃并不是因为某次超大规模的预训练（Pre-training），而是由评测基座（Harness）、微调（Post-training）以及提示词工程共同作用的神秘结果，目前大行业内甚至还没完全搞懂最核心的触发点是什么 [22:37]。
为什么 Anthropic 抢了先？：主持人问为什么 Anthropic（通过 Claude）在编程和长文本上感觉更早取得成功？Lukasz 透露，当时 OpenAI 的全副精力都在搞面向大众的 ChatGPT（Chat 路线），而 Anthropic 做出了一个非常聪明的差异化决定——死磕 Coding [58:04]。这导致 ChatGPT 成为了“2025 年最惊艳的 AI”，而到了 2026 年，格局已经完全变成了 Agent 的天下 [58:45]。

3. 硬件演进对学术界/爱好者的平权

“把当年 Google 的算力买回家”：Lukasz 兴奋地分享他最近自己买了一台配备 NVIDIA RTX 5090 显卡的个人电脑 [38:06]。他做了一组测试：5090 拥有大约 200 Teraflops 的算力，而当年他们研究 Transformer 论文时，用的是 8 卡机器，单卡只有 9 百亿次（9 Flops），整机也就 70-80 Teraflops。
这意味着，现在任何人只要在桌子底下放一台 5090，其算力就相当于当年他们开发出 Transformer 时所用全套 Google Brain 算力的数倍 [38:54]！
算法验证的加速：过去估算模拟人类大脑一年所需算力觉得遥不可及，现在通过云端或顶级单卡，几百到几千美元就能跑完一个人类童年时期的“模拟学习过程” [01:04:11]。即使模型的推理非常 sequential（如 RNN），现在也可以直接让 AI 帮忙写高效的 CUDA Kernel 来加速运行 [42:40]。

4. 多模态（Multimodal）的现状

Lukasz 认为目前的多模态并没有触及真正的深层变革 [46:40]。现在的多模态不管是 Transformer 还是 Diffusion，本质上还是在自回归地预测每一个像素（predicting every pixel autoregressively）。
人类在感知世界时，视觉、听觉等海量信号是完全并行（parallel）灌入大脑的，虽然神经元反应慢，但吞吐量巨大。而现在的模型由于需要切片（patches）且高度串行，根本无法在 1 毫秒内真正消化高分辨率的动态图像。目前虽然有大厂在做“多流 Transformer（multistream transformers）”，但离真正的并行吸收还有距离 [47:50]。

5. OpenAI 幕后决策与大厂内卷

转折点：押注推理（Reasoning）：在 Lukasz 供职 OpenAI 期间，公司经历了一个极其勇敢的重大决策——全面转向 Reasoning（推理模型） [50:22]。当时这类模型在刚开发时“不爱闲聊”（not chatty）、个性模糊且速度极慢，公司内部也曾纠结用户会不会只喜欢 ChatGPT 那样的聊天模型。但 OpenAI 顶住压力下了重注，才有了后来的领先，以至于目前很多大厂在 RL（强化学习）质量上依然在苦苦追赶 [51:07]。
大厂的无奈与优势：Google 是一家什么发明都不想漏掉的实验室，虽然这让它在大众舆论中显得“总是起大牌却被别人商业化”，但 Google 的底蕴在于只要市场上什么火了，它强大的团队能在极短时间内迅速复制并赶上（比如他测试了 IO 大会后的新模型，有些已经分不清和 Codex 的区别了） [01:00:37]。
开源与闭源的差距：虽然小模型（SLM）和蒸馏技术（Distillation）突飞猛进，但 Lukasz 本人很少用 Mini 系列模型，因为它们日常够用，但一旦在关键时刻“绊倒（trip）”就会浪费人类大量的时间调试，所以他最后还是会回归到顶配的大模型上 [01:03:36]。不过出于“主权 AI（Sovereign AI）”和安全考虑，国家和医院等机构不会希望将命脉押在一两家闭源公司身上，因此开源大模型会持续繁荣 [01:04:19]。

6. 快问快答与结尾寄语

改变最大的观点：以前完全不相信“AI 实习生/智能体”时代会来得这么快，也从不跟计算机多说话。现在每天工作都离不开 AI，甚至连代码编辑器（Editor）都不怎么用了，直接口述让 AI 修改代码 [01:05:29]。
AI 存在主义风险（x-risk）：他的看法没有太大变化，保持“不极度担忧，但绝不掉以轻心”的态度。比起科幻小说里的毁灭人类，他更关心短期内 AI 被用来黑入电力网络、导致电网瘫痪等实际的安全风险 [01:06:35]。
为什么不去创业？：Transformer 论文的其他作者基本都出去开公司了，Lukasz 开玩笑说被问过无数次这个问题。他坦言自己纯粹热爱技术和研发工作（technical work），而开公司的同僚们最后无一例外都要把大量时间耗在公司行政和运营上 [01:09:44]。
给研究者的终极建议：勇敢去失败：他鼓励大家在这个最好的时代利用 Agents 勇敢地去进行“疯狂的探索”（wild explorations） [01:11:22]。他提到自己在提出 Transformer 的前一年，曾发表过一篇名为《你不需要 Attention》（用的是 active memory 架构）的论文 [01:11:54]。 > “虽然那篇论文回看不是一个好建议，但人类最强大的地方就在于，能够从完全错误的方向中吸取教训，并将其扭转到正确的道路上——这也是目前 AI 模型最糟糕、最学不会的地方 [01:12:07]。所以，多去探索会失败的怪想法吧，那才是通往颠覆性创新的路。” > >