OpenAI 推理模型如何成功推翻一个由著名数学家保罗·埃尔德什（Paul Erdős）提出的、长达 80 年之久的数学猜想

#ai #llm #openai #science

https://www.youtube.com/watch?v=wNWz5Hbh5VQ

在这期 OpenAI 播客中，主持人 Andrew Maine 邀请了来自 OpenAI 推理研究团队（Reasoning Research Team）的三位核心研究员：Alexander Wei、Hongxun Wu 和 Lijie Chen。他们详细分享了 OpenAI 推理模型如何成功推翻一个由著名数学家保罗·埃尔德什（Paul Erdős）提出的、长达 80 年之久的数学猜想 [00:00]。

以下是本期播客内容的详细拆解：

1. 数学突破：推翻埃尔德什的“单位距离猜想”

猜想背景：该问题属于组合几何领域。埃尔德什当年的原猜想认为，在平面上排列 $n$ 个点并使它们之间刚好相距 1 英寸的“最优解”是将点排列在正方形网格（Square Grid）中 [06:45]。该问题是该领域的中心问题之一，埃尔德什甚至在上世纪为此悬赏了 500 美元 [13:39]。
模型的证明：模型证明了正方形网格根本不是最优解，并利用高深的代数数论（Class Field Theory）构建了一种全新的、高度对称的几何设计，大大突破了原有的数量渐进界限 [07:46, 12:50, 16:03]。
团队的反应：当模型首次跑出结果时，团队第一反应是不敢相信 [09:00]。他们将证明结果发给公司内部的高水平数学家（如 Matab 和 Maxeli）审查。最初数学家坚称“这绝对不可能，肯定有 Bug”，但在仔细看了一天找不到任何漏洞后，大家开始变得极度兴奋，甚至集体失眠 [09:21]。

2. 推理模型的核心机制：“思考”的力量

测试时计算（Test-time Compute）： Alexander 解释说，以前的模型（如传统的 GPT 模型）回答问题是“脱口而出”，不加思考。而新的推理模型引入了“测试时计算”机制，允许模型在最终输出前花费更多时间去思考、尝试不同的路径并进行自我修正 [02:53]。
思考越多，正确率越高：数据表明，如果给模型更多的推理时间（Compute Budget），它解决极难问题的正确率会随着时间拉长而成倍甚至呈指数级上升（在此问题上达到了近 50% 的正确率） [15:04, 32:13]。
这不仅是一个数学模型：研究员强调，该模型是一个通用模型（General-purpose Model），并非专门为了数学进行微调。团队只是拿极难的数学题来“试驾”模型，以测试其能力的上限 [11:14, 15:23]。

3. 模型的趣味细节与创见

查阅字典的“呆萌”举动： Lijie 分享了一个有趣的细节：模型在联网查阅资料试图解决这个问题时，做的第一件事竟然是去剑桥词典里查“单位（Unit）”这个词的定义，确保自己对题目的理解绝对精准，这体现了模型极强的自我锚定（Grounding）能力 [17:47]。
125页的思维链：虽然模型最终的证明非常惊艳，但它生成的思维链（Chain of Thought）长达 125 页。其中包含了很多极具创意但最终未能成功的尝试，最后它将不同的发散想法和跨领域知识完美结合在了一起 [29:21]。

4. 对学术界和人类数学家的影响

反哺人类学术界：这一突破并非止步于“AI 做了一道题”。模型给出证明后，人类数学家不仅在此基础上进一步优化了数学边界，还利用 AI 给出的构造直觉和动机，在短短一周内顺势推翻了另一个重要的数学猜想——实数条件下的“和积猜想（Sum-product Conjecture）” [18:38, 35:21]。
协作而非替代：虽然数学家感到担忧是合理的，但研究员认为 AI 应该被视为“赋能”工具。AI 的优势在于知识面广、能够连接两个看似毫无关联的遥远领域（如本题中的数论与组合几何） [16:03, 21:16]；而人类的优势在于构建全新的体系和宏大理论（例如目前 AI 还很难自主从零构建像“P vs NP”这样的全新理论） [05:22, 19:15]。
不搞“AI 垃圾”，不刷榜：团队明确表示，他们的目标不是为了去“刷榜”或者把埃尔德什留下的上千个问题全部用 AI 解完（他们称之为制造 AI Slop/垃圾），而是希望把这种高阶的推理能力开放给全世界的科学家，由人类科学家去定向解决各个科学领域里真正重要的问题 [36:10]。

5. 研究员们对未来的展望与研究建议

下一个里程碑：
Lijie 和 Hongxun 希望未来AI能真正解决计算机科学的圣杯问题：$P \overset{?}{=} NP$ [28:10]。
Alexander 期待更近的下一个节点是：让 AI 能够自主进行 AI 自身的研究，用 AI 加速 AI 的进化 [28:17]。
另外，研究员也提到该技术在密码学（Cryptography）（用于测试安全协议的底层漏洞）和量子计算（Quantum Computing）（利用 AI 寻找更好的量子纠错码）等领域的巨大应用潜力 [37:35, 39:26]。
给科研人员的实用建议：
直接问最大胆的问题： Hongxun 建议不要试图把问题拆得太细去喂给模型，因为人类直觉的“拆解步骤”往往带有固有偏见（Blind Spots），直接问宏观问题反而能让 AI 给出出其不意的盲区解法 [22:45]。
通过反问来学习： Lijie 提到，在模型给出复杂的证明后，你可以像对待一个非常有耐心的导师一样，一行一行地去追问它：“你是怎么想到这一步的？能不能给我解释一下这段证明？”它会非常耐心地逐行教学 [39:58]。