在这次访谈中,主持人 Matt Turck 对话了 OpenAI 强化学习基础团队(Foundations of Reinforcement Learning)的主管 Dan Roberts。
Dan Roberts 拥有 MIT 理论物理学博士背景,曾研究黑洞、量子引力和量子混沌,后转向 AI 领域。节目围绕近期 AI 在数学领域的突破(如破解埃尔德什 Erdos 猜想)、强化学习(RL)的本质、思维链与测试时计算(Test-time compute),以及物理学对理解 AI 的启示展开了极其详尽的深入讨论。
以下是访谈内容的完整、详细拆解:
1. 团队背景与 Dan 的科学路径
- 团队职责 [01:21]:Dan 领导的团队叫“强化学习基础团队”。他们的主要任务是研究强化学习的科学原理。在 OpenAI 推出 o1 等推理模型之前(Dan 戏称 AI 领域的“一年前”就像过了好久),他们就在内部研究如何将计算量转化为智能、强化学习的扩展定律(Scaling Laws)是什么,以及如何通过 RL 让模型学会“思考”。
- 从物理到 AI 的转变 [03:09]:Dan 曾从事量子引力和黑洞信息论的研究。2015-2016 年期间,DeepMind 的 DQN 玩雅达利游戏和 AlphaGo 的成功让他看到了深度学习作为一种“统计科学”的巨大潜力。他认为 AI 和宇宙一样遵循统计规律,并于 2017 年加入 FAIR(Facebook AI 研究院),尝试用物理学工具理解深度学习,还合作撰写了《深度学习理论原理》一书。两年前,为了更接近技术前沿,他选择加入 OpenAI。
2. 轰动一时的数学突破:破解 Erdos 猜想
访谈发生时,正值 AI 界在数学界取得重大突破的一周(OpenAI、DeepMind 和 Anthropic 均有成果发布)。Dan 详细对比了不同实验室的路径:
- OpenAI 的突破(单位距离问题/埃尔德什猜想) [09:01]:
- 反向思维:该数学猜想此前人人都认为是真的,但无法证明。OpenAI 的模型做了一个非常反常规(Contrarian)的假设——假设该猜想是假的。
跨学科链接与坚持:模型在大规模计算下,坚持长达数小时的超长推理路径,将该问题与另一个完全不同的领域(代数数论)联系起来,最终成功驳倒(Refute)了这一猜想。
OpenAI vs. DeepMind 的路径对比 [10:29]:
DeepMind(形式化语言路径):通常使用
Lean等形式化数学语言。通过自动形式化(Auto-formalization)将英文问题翻译成极其严密的计算机代码,然后由系统搜索证明。优点是证明绝对无误、不需要人工二次检查。OpenAI(非形式化/自然语言路径):直接让模型理解数学问题的英文表述,并像人类数学家一样,用非形式化的自然语言和数学公式写出证明。优点是更符合人类思维和跨领域联想,但缺点是验证(Verification)更难,需要人工审核。
3. 什么是强化学习(RL)?
为了让大众理解,Dan 给出了非常通俗的解释:
- Mario 游戏比喻(监督学习 vs. 强化学习) [12:38]:
- 监督学习(Supervised Learning):就像你看着你爸爸玩了几个小时的马里奥,你只是在默默背诵他的动作,自己从未摸过手柄。一旦你自己上场,你很难应付没见过的情况。
强化学习(RL):让你直接拿上手柄去玩。第一次你可能撞上怪物死掉,第二次你试着按了跳跃键。在这个过程中,你不断和环境交互、做决策、接收反馈(奖励)。
稀疏奖励(Sparse Rewards) [14:28]:在很多复杂任务中(如国际象棋),你在中间走子时并不知道是对是错,只有到最后赢了或输了才能得到一个总的奖励,这就叫稀疏奖励。
RL 强大的原因 [15:15]:它允许模型在“最适合自己当前水平”的层级(Curriculum,课程)上进行练习,通过反复试错来学习那些它原本不懂的东西。
4. RL 与大语言模型(LLM)的结合
- RLHF(人类反馈强化学习) [17:04]:这是 RL 在大模型上的早期应用。通过收集人类对模型不同回答的偏好数据,训练出一个“价值函数/奖励模型(Reward Model)”,再通过 RL 调整模型,使其从一个单纯预测下一个词的代码变成一个听话、有礼貌的聊天机器人。
- 德州扑克比赛的趣闻(探索 vs. 榨取) [18:49]:
- Dan 分享了他在研究生时期与 Noam Brown(现 OpenAI 科学家,博弈论大牛)参加 MIT 扑克机器人大赛的故事。
- 另一个机器人通过读心术专门“榨取(Exploit)”其他弱手,分数一路上扬;而 Noam 和 Dan 的机器人玩的是纯粹基于博弈论的“不败策略/纳什均衡”。决赛时,他们的不败策略彻底击败了那个靠压榨对手生存的机器人。
- 科学发现需要“探索(Explore)” [22:20]:Dan 强调,在像 Erdos 这样悬而未决的科学大问题中,模型不能只是一味在已知路径上“榨取(Exploit)”,它必须展现出极强的探索精神(Exploration),甚至敢于反主流。
5. 测试时计算(Test-time Compute)与思维链(CoT)
- “RL 是蛋糕本体” [24:47]:过去业界(如 Yann LeCun)常说“预训练是蛋糕,RL 只是蛋糕上的樱桃”。Dan 在一年半前就公开反驳了这一观点,他认为有了庞大的计算量后,RL 是将计算量转化为真正智能的核心,它才是蛋糕本体。
- 预训练提供“底子” [26:22]:模型需要足够强大的预训练底子,RL 才能在其上真正发挥作用。
- 什么是测试时计算(Test-time Compute) [32:41]:
- 如果不给模型思考时间,模型在一次前向传播(Forward Pass)中,其计算量(FLOPs)只能支撑它立刻崩出下一个字。
- 但如果允许它生成思维链(Chain of Thought),它就可以在语言空间(Token Space)里像人类在草稿纸上演算一样,重复利用模型权重,将极庞大的计算量倾注在同一个问题上(就像 Noam Brown 常说的:让模型为证明“黎曼猜想”自主连续思考好几年)。
6. 可验证奖励(Verifiable Reward)与未来泛化
- 可验证奖励的定义 [35:36]:指那些不会被“走捷径/奖励黑客(Reward Hacking)”的奖励。例如数学题,答案是几就是几,代码可以用字符串精准匹配。而写一篇好的创意文章则是不可验证的,因为它涉及人类的品味。
- 无验证领域的未来 [36:46]:尽管在法律、咨询、银行等领域缺乏像数学那样绝对的“可验证奖励”,Dan 依然坚信 OpenAI 将在这些“模糊”领域推出惊人的产品,RL 会在其中通过某种分布式或人类偏好的方式发挥作用。
7. 物理学如何启发我们理解 AI?
- 由大到小(Big to Small)的逆向思考 [38:33]:Dan 提出了一个非常有趣的物理学视点。很多人认为模型在变大时会发生突然的“顿悟(Grocking)”或不连续的跳跃。
- Dan 坚决反驳这一观点。他认为,如果在尺度放大(Scaling)时出现了断层或断裂,说明你根本没有理解你所扩展的东西。物理学家的做法是:在大型系统发生复杂现象(或崩溃)时,回到小型系统,设计更简单的“玩具模型(Toy Examples)”去复现它。直到你在小模型里理顺了机制、让整个扩展曲线变平滑,你才算真正理解了它(就像物理学中将复杂的牛顿世界简化为“球形奶牛”来研究一样)。
- AI 的热力学理论 [41:56]:Dan 认为,OpenAI 早期的 Kaplan Scaling Laws(仅凭参数量和数据量就能预测最终的 Loss)就是一种 AI 的“热力学”。目前的缺失点在于如何建立从“微观(每个权重和偏置)”到“宏观(整体 Scaling Law)”的统计力学桥梁。
8. 终局展望:AI 离爱因斯坦还有多远?
- 关于“9年内达到爱因斯坦水平”的玩笑 [43:06]:Dan 拆解了他此前开过的这个玩笑。爱因斯坦花了 8 年时间才想出广义相对论,如果根据 AI 自主思考能力的倍增时间来算,九年内 AI 就能自主思考 8 年。但他指出,实际上随着模型自身的加速迭代,这种 scaling 曲线会在中途以其他方式被打破。
- genuine 科学发现 [45:20]:Dan 明确表示,他现在已经被 AI 展现出的原始科学创新能力说服了。Erdos 猜想的破解就是铁证——它具备超越绝大多数人类的跨学科视野和超长路径的 contrarian(反向)思考能力。
- AI 自动化自身与科学的魅力 [45:49]:AI 已经在日常代码和数学工程中扮演核心角色,未来大模型会越来越多地用于“AI 自身的科学研究”(像研究物理一样研究 AI)。Dan 在最后感叹,人类科学家在面对许多终极科学问题时可能会带着遗憾退休,但看到 AI 模型正在成为推动科学发现的主力军,这让人对揭开宇宙的终极奥秘感到无比兴奋 [48:14]。
Top comments (0)