cognitalk

Posted on Jun 4 • Edited on Jun 8

Carina Hong: Frontiers of AI for Mathematical Research

#ai #podcast #math #lean

https://www.youtube.com/watch?v=WMo-RmSJQpE
在这场名为《Carina Hong: Frontiers of AI for Mathematical Research》的演讲中，Axiom 的创始人兼 CEO Carina Hong 详细分享了 AI 在数学研究领域的最新前沿进展、所面临的挑战以及他们团队取得的突破性成果。

以下是演讲内容的详细梳理：

一、 Axiom 的愿景与技术路线

团队与目标： Axiom 是一个位于帕罗奥图（Palo Alto）的 40-45 人团队，专注于推进形式化数学（Formal Mathematics）以及可验证推理（Verified Reasoning）的前沿 [00:00]。
核心理念： 团队相信，如果在数学推理任务上取得重大进展，其成果将 100% 形式化并基于 Lean 语言 进行验证，这可以无缝迁移到软件和硬件验证等对安全性要求极高的重要领域 [00:13]。
技术架构： Axiom 采用混合系统（Hybrid System） [02:29]。他们基于开源大语言模型进行微调，使其能够生成 Lean 验证的证明，并结合多模型智能体系统（Agent System）、传统自动定理证明（ATP）技术、测试时计算量扩展（Inference Scaling）、递归分解以及回溯等技术，使系统性能远超单一模型 [09:14, 14:04]。

二、 AI 在数学竞赛上的演进历程

Carina 梳理了过去两年（2024-2025年）AI 在数学竞赛上的惊人突破：

早期（AlphaProof 时代）： 主要将数学问题转化为 Lean 语言，在结构化数据域内利用训练时的蒙特卡洛树搜索（MCTS）进行强化学习 [01:05]。
2025年7月 IMO（国际数学奥林匹克）： 迎来了非形式化（Informal）模型的爆发。OpenAI（如 01 系列模型）和 Google DeepMind（Gemini）通过思维链（Chain of Thought）和测试时扩展（Scaling Test Time），完全用自然语言推理拿到了 IMO 金牌。同时，Harmonic 和字节跳动的形式化数学实验室也取得了顶尖成果 [01:26]。
2025年12月 Putnam（普特南数学竞赛）： 面对广泛的大学本科级数学题，Axiom 团队斩获了完美满分（Perfect Score）。在实时竞赛的有限时间内，AI 先解出了 12 道题中的 8 道，并最终在 12 月完成了全部题目的 Lean 证明 [02:11]。

三、从数学竞赛走向“数学研究”的痛点

尽管竞赛成绩惊人，但 Carina 强调，竞赛数学与真正的数学研究有着巨大的鸿沟。目前阻碍 AI 数学研究发展的最大问题在于缺乏公认的、统一的基准测试（Benchmarks） [03:44]：

寻找未解之谜困难： 未解的科研问题往往是教授和研究生的“知识产权”，很难像机器学习那样组装出包含 500 道题的规模化标准集 [04:03]。
现有基准的局限性：
FrontierMath (Tier 4)： 虽然题目极难，但它专为非形式化推理设计，为了方便自动评判，所有问题都被迫压缩成“只有一个数字答案”，而绝大多数数学研究需要的是复杂的证明 [04:20]。
DeepMind 的形式化猜想集： 难度分布过于两极分化，既有相对简单的厄多斯（Erdős）问题，也有价值百万美元的“千禧年大奖难题”，导致无法科学地衡量 AI 系统的均等进步 [04:53]。
First Proof： 包含 10 个博士级的难题。目前的尖端大模型和初创公司基本都折戟于此。更有趣的是，由于目前 Lean 库的覆盖范围有限，这些问题在 Lean 中甚至无法被形式化陈述 [05:27]。

四、厄多斯（Erdős）难题的“宝可梦捕捉”热潮

由于缺乏统一的 Benchmark，目前各大 AI 实验室演变成了针对具体数学难题的“狩猎赛”：

技术乌龙与反转： 2025年10月，OpenAI 声称 GPT-5 解决了 10 个未解的 Erdős 问题，但随后被 DeepMind “打脸”指出这只是文献检索（AI 只是搜到了前人的成果）。Axiom 和 Harmonic 早期也曾误以为自己独立解出了某些问题 [06:19]。
最新进展： 2026年，社区决定像当年“预测蛋白质结构”一样，对 Erdős 课题库发起全面总攻。目前在专门的 GitHub 仓库中，至少有十几道此前未解的 Erdős 问题被 AI 独立攻克 [06:57]。不过 Carina 也指出，Erdős 组合数学问题的风格依然偏向竞赛数学，AI 需要走得更深 [07:44]。

五、 Axiom 的硬核科研成果：100天 7 篇论文

Carina 自豪地展示了 Axiom 自 2026 年 2 月初以来，在100天内向公众推出的 7 篇数学研究论文（其中 3 篇已被正式数学期刊接收） [08:03]。这其中包括 5 篇形式化定理证明和 2 篇自动形式化（Auto-formalization）论文。

她详细介绍了两个极具代表性的数论突破：

几乎所有素数都是部分正则的（Almost all primes are partially regular）： 针对 1929 年提出的关于代数数论中理想类群“偶数部分空间（Even Subspaces）”是否会消亡的经典猜想，Axiom Prover 证明了：对于几乎所有的素数 $p$，其偶数部分空间的很大一部分都会消亡。这是关于该偶数空间的首个无限理论成果，论文已被《Archiv der Mathematik》接收 [09:50]。
拉马努金 $\tau$ 函数的非素数性（Ramanujan $\tau$ Function）： 研究拉马努金 $\tau$ 函数（模判别式的傅里叶系数）何时会取素数值。这是一个巨大的谜团（例如直到 $251^2$ 时才会出现一个庞大的素数值）。在假设 ABC 猜想成立的前提下，Axiom Prover 证明了：该函数避开了 100% 的素数（即其取值为素数的集合密度为零）。该论文已被《Indagationes Mathematicae》接收 [11:20]。

💡 复杂度的飞跃： 从 2025 年 12 月解决 Erdős 124 问题到 2026 年 3 月解决拉马努金 $\tau$ 函数问题，AI 生成的证明图谱（Proof Graph）复杂度从 不足 50 个推理节点飙升到了约 500 个推理节点 [12:45]。

六、自动形式化与人类协同

除了独立证明，AI 还能帮助形式化人类数学家的已有成果（将自然语言证明翻译为 Lean 代码，其推理图谱的复杂度不亚于独立定理证明） [08:36]：

成功自动形式化了一篇关于正点阵三角形（处理台球与动力系统）的复杂论文 [13:30]。
成功自动形式化了 Eon Huang 关于有理节点威特（rational node Witt）的二次型推广论文，展现了新型的“人机协作”模式 [13:36]。

七、未来路线图与社区贡献

Carina 总结道，“AI for Mathematics”的时代已经真正到来。

免费工具发放： 为了解决 Lean 语言推理慢的问题，Axiom 向社区免费发布了名为 Axo 的工具包，包含十几个工具，能大幅简化证明验证和代码操作 [14:18]。
下一步研究方向：
猜测与库学习（Conjecturing & Library Learning）： 让 AI 尝试自己提出有趣的数学定义。
全流程融合： 将探索器（Explorer）、求解器（Xolver，如基于 Pattern-Booth 扩展的工具）与 Axiom 的开源产品进行融合，将寻找反例、结构构造与定理证明整合进同一个端到端的自动化工作流中 [14:30]。

DEV Community

Carina Hong: Frontiers of AI for Mathematical Research

一、 Axiom 的愿景与技术路线

二、 AI 在数学竞赛上的演进历程

三、从数学竞赛走向“数学研究”的痛点

四、厄多斯（Erdős）难题的“宝可梦捕捉”热潮

五、 Axiom 的硬核科研成果：100天 7 篇论文

六、自动形式化与人类协同

七、未来路线图与社区贡献

Top comments (0)

一、 Axiom 的愿景与技术路线

二、 AI 在数学竞赛上的演进历程

三、 从数学竞赛走向“数学研究”的痛点

四、 厄多斯（Erdős）难题的“宝可梦捕捉”热潮

五、 Axiom 的硬核科研成果：100天 7 篇论文

六、 自动形式化与人类协同

七、 未来路线图与社区贡献

三、从数学竞赛走向“数学研究”的痛点

四、厄多斯（Erdős）难题的“宝可梦捕捉”热潮

六、自动形式化与人类协同

七、未来路线图与社区贡献