DEV Community

cognitalk
cognitalk

Posted on

Matt Turck 对话了OpenAI 强化学习基础团队(Foundations of Reinforcement Learning)主管 Dan Roberts

在这次访谈中,主持人 Matt Turck 对话了 OpenAI 强化学习基础团队(Foundations of Reinforcement Learning)的主管 Dan Roberts

Dan Roberts 拥有 MIT 理论物理学博士背景,曾研究黑洞、量子引力和量子混沌,后转向 AI 领域。节目围绕近期 AI 在数学领域的突破(如破解埃尔德什 Erdos 猜想)、强化学习(RL)的本质、思维链与测试时计算(Test-time compute),以及物理学对理解 AI 的启示展开了极其详尽的深入讨论。

以下是访谈内容的完整、详细拆解:


1. 团队背景与 Dan 的科学路径

  • 团队职责 [01:21]:Dan 领导的团队叫“强化学习基础团队”。他们的主要任务是研究强化学习的科学原理。在 OpenAI 推出 o1 等推理模型之前(Dan 戏称 AI 领域的“一年前”就像过了好久),他们就在内部研究如何将计算量转化为智能、强化学习的扩展定律(Scaling Laws)是什么,以及如何通过 RL 让模型学会“思考”。
  • 从物理到 AI 的转变 [03:09]:Dan 曾从事量子引力和黑洞信息论的研究。2015-2016 年期间,DeepMind 的 DQN 玩雅达利游戏和 AlphaGo 的成功让他看到了深度学习作为一种“统计科学”的巨大潜力。他认为 AI 和宇宙一样遵循统计规律,并于 2017 年加入 FAIR(Facebook AI 研究院),尝试用物理学工具理解深度学习,还合作撰写了《深度学习理论原理》一书。两年前,为了更接近技术前沿,他选择加入 OpenAI。

2. 轰动一时的数学突破:破解 Erdos 猜想

访谈发生时,正值 AI 界在数学界取得重大突破的一周(OpenAI、DeepMind 和 Anthropic 均有成果发布)。Dan 详细对比了不同实验室的路径:

  • OpenAI 的突破(单位距离问题/埃尔德什猜想) [09:01]:
  • 反向思维:该数学猜想此前人人都认为是真的,但无法证明。OpenAI 的模型做了一个非常反常规(Contrarian)的假设——假设该猜想是假的
  • 跨学科链接与坚持:模型在大规模计算下,坚持长达数小时的超长推理路径,将该问题与另一个完全不同的领域(代数数论)联系起来,最终成功驳倒(Refute)了这一猜想。

  • OpenAI vs. DeepMind 的路径对比 [10:29]:

  • DeepMind(形式化语言路径):通常使用 Lean 等形式化数学语言。通过自动形式化(Auto-formalization)将英文问题翻译成极其严密的计算机代码,然后由系统搜索证明。优点是证明绝对无误、不需要人工二次检查

  • OpenAI(非形式化/自然语言路径):直接让模型理解数学问题的英文表述,并像人类数学家一样,用非形式化的自然语言和数学公式写出证明。优点是更符合人类思维和跨领域联想,但缺点是验证(Verification)更难,需要人工审核。


3. 什么是强化学习(RL)?

为了让大众理解,Dan 给出了非常通俗的解释:

  • Mario 游戏比喻(监督学习 vs. 强化学习) [12:38]:
  • 监督学习(Supervised Learning):就像你看着你爸爸玩了几个小时的马里奥,你只是在默默背诵他的动作,自己从未摸过手柄。一旦你自己上场,你很难应付没见过的情况。
  • 强化学习(RL):让你直接拿上手柄去玩。第一次你可能撞上怪物死掉,第二次你试着按了跳跃键。在这个过程中,你不断和环境交互、做决策、接收反馈(奖励)

  • 稀疏奖励(Sparse Rewards) [14:28]:在很多复杂任务中(如国际象棋),你在中间走子时并不知道是对是错,只有到最后赢了或输了才能得到一个总的奖励,这就叫稀疏奖励。

  • RL 强大的原因 [15:15]:它允许模型在“最适合自己当前水平”的层级(Curriculum,课程)上进行练习,通过反复试错来学习那些它原本不懂的东西。


4. RL 与大语言模型(LLM)的结合

  • RLHF(人类反馈强化学习) [17:04]:这是 RL 在大模型上的早期应用。通过收集人类对模型不同回答的偏好数据,训练出一个“价值函数/奖励模型(Reward Model)”,再通过 RL 调整模型,使其从一个单纯预测下一个词的代码变成一个听话、有礼貌的聊天机器人。
  • 德州扑克比赛的趣闻(探索 vs. 榨取) [18:49]:
  • Dan 分享了他在研究生时期与 Noam Brown(现 OpenAI 科学家,博弈论大牛)参加 MIT 扑克机器人大赛的故事。
  • 另一个机器人通过读心术专门“榨取(Exploit)”其他弱手,分数一路上扬;而 Noam 和 Dan 的机器人玩的是纯粹基于博弈论的“不败策略/纳什均衡”。决赛时,他们的不败策略彻底击败了那个靠压榨对手生存的机器人。
  • 科学发现需要“探索(Explore)” [22:20]:Dan 强调,在像 Erdos 这样悬而未决的科学大问题中,模型不能只是一味在已知路径上“榨取(Exploit)”,它必须展现出极强的探索精神(Exploration),甚至敢于反主流。

5. 测试时计算(Test-time Compute)与思维链(CoT)

  • “RL 是蛋糕本体” [24:47]:过去业界(如 Yann LeCun)常说“预训练是蛋糕,RL 只是蛋糕上的樱桃”。Dan 在一年半前就公开反驳了这一观点,他认为有了庞大的计算量后,RL 是将计算量转化为真正智能的核心,它才是蛋糕本体
  • 预训练提供“底子” [26:22]:模型需要足够强大的预训练底子,RL 才能在其上真正发挥作用。
  • 什么是测试时计算(Test-time Compute) [32:41]:
  • 如果不给模型思考时间,模型在一次前向传播(Forward Pass)中,其计算量(FLOPs)只能支撑它立刻崩出下一个字。
  • 但如果允许它生成思维链(Chain of Thought),它就可以在语言空间(Token Space)里像人类在草稿纸上演算一样,重复利用模型权重,将极庞大的计算量倾注在同一个问题上(就像 Noam Brown 常说的:让模型为证明“黎曼猜想”自主连续思考好几年)。

6. 可验证奖励(Verifiable Reward)与未来泛化

  • 可验证奖励的定义 [35:36]:指那些不会被“走捷径/奖励黑客(Reward Hacking)”的奖励。例如数学题,答案是几就是几,代码可以用字符串精准匹配。而写一篇好的创意文章则是不可验证的,因为它涉及人类的品味。
  • 无验证领域的未来 [36:46]:尽管在法律、咨询、银行等领域缺乏像数学那样绝对的“可验证奖励”,Dan 依然坚信 OpenAI 将在这些“模糊”领域推出惊人的产品,RL 会在其中通过某种分布式或人类偏好的方式发挥作用。

7. 物理学如何启发我们理解 AI?

  • 由大到小(Big to Small)的逆向思考 [38:33]:Dan 提出了一个非常有趣的物理学视点。很多人认为模型在变大时会发生突然的“顿悟(Grocking)”或不连续的跳跃。
  • Dan 坚决反驳这一观点。他认为,如果在尺度放大(Scaling)时出现了断层或断裂,说明你根本没有理解你所扩展的东西。物理学家的做法是:在大型系统发生复杂现象(或崩溃)时,回到小型系统,设计更简单的“玩具模型(Toy Examples)”去复现它。直到你在小模型里理顺了机制、让整个扩展曲线变平滑,你才算真正理解了它(就像物理学中将复杂的牛顿世界简化为“球形奶牛”来研究一样)。
  • AI 的热力学理论 [41:56]:Dan 认为,OpenAI 早期的 Kaplan Scaling Laws(仅凭参数量和数据量就能预测最终的 Loss)就是一种 AI 的“热力学”。目前的缺失点在于如何建立从“微观(每个权重和偏置)”到“宏观(整体 Scaling Law)”的统计力学桥梁。

8. 终局展望:AI 离爱因斯坦还有多远?

  • 关于“9年内达到爱因斯坦水平”的玩笑 [43:06]:Dan 拆解了他此前开过的这个玩笑。爱因斯坦花了 8 年时间才想出广义相对论,如果根据 AI 自主思考能力的倍增时间来算,九年内 AI 就能自主思考 8 年。但他指出,实际上随着模型自身的加速迭代,这种 scaling 曲线会在中途以其他方式被打破。
  • genuine 科学发现 [45:20]:Dan 明确表示,他现在已经被 AI 展现出的原始科学创新能力说服了。Erdos 猜想的破解就是铁证——它具备超越绝大多数人类的跨学科视野和超长路径的 contrarian(反向)思考能力。
  • AI 自动化自身与科学的魅力 [45:49]:AI 已经在日常代码和数学工程中扮演核心角色,未来大模型会越来越多地用于“AI 自身的科学研究”(像研究物理一样研究 AI)。Dan 在最后感叹,人类科学家在面对许多终极科学问题时可能会带着遗憾退休,但看到 AI 模型正在成为推动科学发现的主力军,这让人对揭开宇宙的终极奥秘感到无比兴奋 [48:14]。

Top comments (0)