DEV Community

cognitalk
cognitalk

Posted on

OpenAI 推理模型如何成功推翻一个由著名数学家保罗·埃尔德什(Paul Erdős)提出的、长达 80 年之久的数学猜想

在这期 OpenAI 播客中,主持人 Andrew Maine 邀请了来自 OpenAI 推理研究团队(Reasoning Research Team)的三位核心研究员:Alexander WeiHongxun WuLijie Chen。他们详细分享了 OpenAI 推理模型如何成功推翻一个由著名数学家保罗·埃尔德什(Paul Erdős)提出的、长达 80 年之久的数学猜想 [00:00]。

以下是本期播客内容的详细拆解:

1. 数学突破:推翻埃尔德什的“单位距离猜想”

  • 猜想背景:该问题属于组合几何领域。埃尔德什当年的原猜想认为,在平面上排列 $n$ 个点并使它们之间刚好相距 1 英寸的“最优解”是将点排列在正方形网格(Square Grid)中 [06:45]。该问题是该领域的中心问题之一,埃尔德什甚至在上世纪为此悬赏了 500 美元 [13:39]。
  • 模型的证明:模型证明了正方形网格根本不是最优解,并利用高深的代数数论(Class Field Theory)构建了一种全新的、高度对称的几何设计,大大突破了原有的数量渐进界限 [07:46, 12:50, 16:03]。
  • 团队的反应:当模型首次跑出结果时,团队第一反应是不敢相信 [09:00]。他们将证明结果发给公司内部的高水平数学家(如 Matab 和 Maxeli)审查。最初数学家坚称“这绝对不可能,肯定有 Bug”,但在仔细看了一天找不到任何漏洞后,大家开始变得极度兴奋,甚至集体失眠 [09:21]。

2. 推理模型的核心机制:“思考”的力量

  • 测试时计算(Test-time Compute): Alexander 解释说,以前的模型(如传统的 GPT 模型)回答问题是“脱口而出”,不加思考。而新的推理模型引入了“测试时计算”机制,允许模型在最终输出前花费更多时间去思考、尝试不同的路径并进行自我修正 [02:53]。
  • 思考越多,正确率越高: 数据表明,如果给模型更多的推理时间(Compute Budget),它解决极难问题的正确率会随着时间拉长而成倍甚至呈指数级上升(在此问题上达到了近 50% 的正确率) [15:04, 32:13]。
  • 这不仅是一个数学模型: 研究员强调,该模型是一个通用模型(General-purpose Model),并非专门为了数学进行微调。团队只是拿极难的数学题来“试驾”模型,以测试其能力的上限 [11:14, 15:23]。

3. 模型的趣味细节与创见

  • 查阅字典的“呆萌”举动: Lijie 分享了一个有趣的细节:模型在联网查阅资料试图解决这个问题时,做的第一件事竟然是去剑桥词典里查“单位(Unit)”这个词的定义,确保自己对题目的理解绝对精准,这体现了模型极强的自我锚定(Grounding)能力 [17:47]。
  • 125页的思维链: 虽然模型最终的证明非常惊艳,但它生成的思维链(Chain of Thought)长达 125 页。其中包含了很多极具创意但最终未能成功的尝试,最后它将不同的发散想法和跨领域知识完美结合在了一起 [29:21]。

4. 对学术界和人类数学家的影响

  • 反哺人类学术界: 这一突破并非止步于“AI 做了一道题”。模型给出证明后,人类数学家不仅在此基础上进一步优化了数学边界,还利用 AI 给出的构造直觉和动机,在短短一周内顺势推翻了另一个重要的数学猜想——实数条件下的“和积猜想(Sum-product Conjecture)” [18:38, 35:21]。
  • 协作而非替代: 虽然数学家感到担忧是合理的,但研究员认为 AI 应该被视为“赋能”工具。AI 的优势在于知识面广、能够连接两个看似毫无关联的遥远领域(如本题中的数论与组合几何) [16:03, 21:16];而人类的优势在于构建全新的体系和宏大理论(例如目前 AI 还很难自主从零构建像“P vs NP”这样的全新理论) [05:22, 19:15]。
  • 不搞“AI 垃圾”,不刷榜: 团队明确表示,他们的目标不是为了去“刷榜”或者把埃尔德什留下的上千个问题全部用 AI 解完(他们称之为制造 AI Slop/垃圾),而是希望把这种高阶的推理能力开放给全世界的科学家,由人类科学家去定向解决各个科学领域里真正重要的问题 [36:10]。

5. 研究员们对未来的展望与研究建议

  • 下一个里程碑
  • Lijie 和 Hongxun 希望未来AI能真正解决计算机科学的圣杯问题:$P \overset{?}{=} NP$ [28:10]。
  • Alexander 期待更近的下一个节点是:让 AI 能够自主进行 AI 自身的研究,用 AI 加速 AI 的进化 [28:17]。
  • 另外,研究员也提到该技术在密码学(Cryptography)(用于测试安全协议的底层漏洞)和量子计算(Quantum Computing)(利用 AI 寻找更好的量子纠错码)等领域的巨大应用潜力 [37:35, 39:26]。

  • 给科研人员的实用建议

  • 直接问最大胆的问题: Hongxun 建议不要试图把问题拆得太细去喂给模型,因为人类直觉的“拆解步骤”往往带有固有偏见(Blind Spots),直接问宏观问题反而能让 AI 给出出其不意的盲区解法 [22:45]。

  • 通过反问来学习: Lijie 提到,在模型给出复杂的证明后,你可以像对待一个非常有耐心的导师一样,一行一行地去追问它:“你是怎么想到这一步的?能不能给我解释一下这段证明?”它会非常耐心地逐行教学 [39:58]。

Top comments (0)