Matt Turck 对话了OpenAI 强化学习基础团队（Foundations of Reinforcement Learning）主管 Dan Roberts

#ai #interview #machinelearning #openai

https://www.youtube.com/watch?v=oWOz2htozfI
在这次访谈中，主持人 Matt Turck 对话了 OpenAI 强化学习基础团队（Foundations of Reinforcement Learning）的主管 Dan Roberts。

Dan Roberts 拥有 MIT 理论物理学博士背景，曾研究黑洞、量子引力和量子混沌，后转向 AI 领域。节目围绕近期 AI 在数学领域的突破（如破解埃尔德什 Erdos 猜想）、强化学习（RL）的本质、思维链与测试时计算（Test-time compute），以及物理学对理解 AI 的启示展开了极其详尽的深入讨论。

以下是访谈内容的完整、详细拆解：

1. 团队背景与 Dan 的科学路径

团队职责 [01:21]：Dan 领导的团队叫“强化学习基础团队”。他们的主要任务是研究强化学习的科学原理。在 OpenAI 推出 o1 等推理模型之前（Dan 戏称 AI 领域的“一年前”就像过了好久），他们就在内部研究如何将计算量转化为智能、强化学习的扩展定律（Scaling Laws）是什么，以及如何通过 RL 让模型学会“思考”。
从物理到 AI 的转变 [03:09]：Dan 曾从事量子引力和黑洞信息论的研究。2015-2016 年期间，DeepMind 的 DQN 玩雅达利游戏和 AlphaGo 的成功让他看到了深度学习作为一种“统计科学”的巨大潜力。他认为 AI 和宇宙一样遵循统计规律，并于 2017 年加入 FAIR（Facebook AI 研究院），尝试用物理学工具理解深度学习，还合作撰写了《深度学习理论原理》一书。两年前，为了更接近技术前沿，他选择加入 OpenAI。

2. 轰动一时的数学突破：破解 Erdos 猜想

访谈发生时，正值 AI 界在数学界取得重大突破的一周（OpenAI、DeepMind 和 Anthropic 均有成果发布）。Dan 详细对比了不同实验室的路径：

OpenAI 的突破（单位距离问题/埃尔德什猜想） [09:01]：
反向思维：该数学猜想此前人人都认为是真的，但无法证明。OpenAI 的模型做了一个非常反常规（Contrarian）的假设——假设该猜想是假的。
跨学科链接与坚持：模型在大规模计算下，坚持长达数小时的超长推理路径，将该问题与另一个完全不同的领域（代数数论）联系起来，最终成功驳倒（Refute）了这一猜想。
OpenAI vs. DeepMind 的路径对比 [10:29]：
DeepMind（形式化语言路径）：通常使用 Lean 等形式化数学语言。通过自动形式化（Auto-formalization）将英文问题翻译成极其严密的计算机代码，然后由系统搜索证明。优点是证明绝对无误、不需要人工二次检查。
OpenAI（非形式化/自然语言路径）：直接让模型理解数学问题的英文表述，并像人类数学家一样，用非形式化的自然语言和数学公式写出证明。优点是更符合人类思维和跨领域联想，但缺点是验证（Verification）更难，需要人工审核。

3. 什么是强化学习（RL）？

为了让大众理解，Dan 给出了非常通俗的解释：

Mario 游戏比喻（监督学习 vs. 强化学习） [12:38]：
监督学习（Supervised Learning）：就像你看着你爸爸玩了几个小时的马里奥，你只是在默默背诵他的动作，自己从未摸过手柄。一旦你自己上场，你很难应付没见过的情况。
强化学习（RL）：让你直接拿上手柄去玩。第一次你可能撞上怪物死掉，第二次你试着按了跳跃键。在这个过程中，你不断和环境交互、做决策、接收反馈（奖励）。
稀疏奖励（Sparse Rewards） [14:28]：在很多复杂任务中（如国际象棋），你在中间走子时并不知道是对是错，只有到最后赢了或输了才能得到一个总的奖励，这就叫稀疏奖励。
RL 强大的原因 [15:15]：它允许模型在“最适合自己当前水平”的层级（Curriculum，课程）上进行练习，通过反复试错来学习那些它原本不懂的东西。

4. RL 与大语言模型（LLM）的结合

RLHF（人类反馈强化学习） [17:04]：这是 RL 在大模型上的早期应用。通过收集人类对模型不同回答的偏好数据，训练出一个“价值函数/奖励模型（Reward Model）”，再通过 RL 调整模型，使其从一个单纯预测下一个词的代码变成一个听话、有礼貌的聊天机器人。
德州扑克比赛的趣闻（探索 vs. 榨取） [18:49]：
Dan 分享了他在研究生时期与 Noam Brown（现 OpenAI 科学家，博弈论大牛）参加 MIT 扑克机器人大赛的故事。
另一个机器人通过读心术专门“榨取（Exploit）”其他弱手，分数一路上扬；而 Noam 和 Dan 的机器人玩的是纯粹基于博弈论的“不败策略/纳什均衡”。决赛时，他们的不败策略彻底击败了那个靠压榨对手生存的机器人。
科学发现需要“探索（Explore）” [22:20]：Dan 强调，在像 Erdos 这样悬而未决的科学大问题中，模型不能只是一味在已知路径上“榨取（Exploit）”，它必须展现出极强的探索精神（Exploration），甚至敢于反主流。

5. 测试时计算（Test-time Compute）与思维链（CoT）

“RL 是蛋糕本体” [24:47]：过去业界（如 Yann LeCun）常说“预训练是蛋糕，RL 只是蛋糕上的樱桃”。Dan 在一年半前就公开反驳了这一观点，他认为有了庞大的计算量后，RL 是将计算量转化为真正智能的核心，它才是蛋糕本体。
预训练提供“底子” [26:22]：模型需要足够强大的预训练底子，RL 才能在其上真正发挥作用。
什么是测试时计算（Test-time Compute） [32:41]：
如果不给模型思考时间，模型在一次前向传播（Forward Pass）中，其计算量（FLOPs）只能支撑它立刻崩出下一个字。
但如果允许它生成思维链（Chain of Thought），它就可以在语言空间（Token Space）里像人类在草稿纸上演算一样，重复利用模型权重，将极庞大的计算量倾注在同一个问题上（就像 Noam Brown 常说的：让模型为证明“黎曼猜想”自主连续思考好几年）。

6. 可验证奖励（Verifiable Reward）与未来泛化

可验证奖励的定义 [35:36]：指那些不会被“走捷径/奖励黑客（Reward Hacking）”的奖励。例如数学题，答案是几就是几，代码可以用字符串精准匹配。而写一篇好的创意文章则是不可验证的，因为它涉及人类的品味。
无验证领域的未来 [36:46]：尽管在法律、咨询、银行等领域缺乏像数学那样绝对的“可验证奖励”，Dan 依然坚信 OpenAI 将在这些“模糊”领域推出惊人的产品，RL 会在其中通过某种分布式或人类偏好的方式发挥作用。

7. 物理学如何启发我们理解 AI？

由大到小（Big to Small）的逆向思考 [38:33]：Dan 提出了一个非常有趣的物理学视点。很多人认为模型在变大时会发生突然的“顿悟（Grocking）”或不连续的跳跃。
Dan 坚决反驳这一观点。他认为，如果在尺度放大（Scaling）时出现了断层或断裂，说明你根本没有理解你所扩展的东西。物理学家的做法是：在大型系统发生复杂现象（或崩溃）时，回到小型系统，设计更简单的“玩具模型（Toy Examples）”去复现它。直到你在小模型里理顺了机制、让整个扩展曲线变平滑，你才算真正理解了它（就像物理学中将复杂的牛顿世界简化为“球形奶牛”来研究一样）。
AI 的热力学理论 [41:56]：Dan 认为，OpenAI 早期的 Kaplan Scaling Laws（仅凭参数量和数据量就能预测最终的 Loss）就是一种 AI 的“热力学”。目前的缺失点在于如何建立从“微观（每个权重和偏置）”到“宏观（整体 Scaling Law）”的统计力学桥梁。

8. 终局展望：AI 离爱因斯坦还有多远？

关于“9年内达到爱因斯坦水平”的玩笑 [43:06]：Dan 拆解了他此前开过的这个玩笑。爱因斯坦花了 8 年时间才想出广义相对论，如果根据 AI 自主思考能力的倍增时间来算，九年内 AI 就能自主思考 8 年。但他指出，实际上随着模型自身的加速迭代，这种 scaling 曲线会在中途以其他方式被打破。
genuine 科学发现 [45:20]：Dan 明确表示，他现在已经被 AI 展现出的原始科学创新能力说服了。Erdos 猜想的破解就是铁证——它具备超越绝大多数人类的跨学科视野和超长路径的 contrarian（反向）思考能力。
AI 自动化自身与科学的魅力 [45:49]：AI 已经在日常代码和数学工程中扮演核心角色，未来大模型会越来越多地用于“AI 自身的科学研究”（像研究物理一样研究 AI）。Dan 在最后感叹，人类科学家在面对许多终极科学问题时可能会带着遗憾退休，但看到 AI 模型正在成为推动科学发现的主力军，这让人对揭开宇宙的终极奥秘感到无比兴奋 [48:14]。