[SAIR播客]陶哲轩：AI 时代的"证明消化不良"与竞赛新范式

#ai #computerscience #machinelearning #science

https://www.youtube.com/watch?v=nbZA4N7BDCU
陶哲轩这场演讲的核心内容用大白话说就是这么几件事：

1. 数学界现在遇到了“消化不良”

过去几百年，数学研究的节奏很慢。一个成果出来，要经过同行评审、反复验证、慢慢消化，最后写进教科书。整个过程就像一条顺畅的生产线。

但现在AI来了，它写证明、解难题的速度飞快，像一台高速印刷机，“生产”出来的东西一下子堆满了仓库。但人类评审员根本来不及看，很多AI生成的论文质量又差，这就造成了“证明消化不良”，或者说是学术界的“交通堵塞”。

2. 不能用老路跑新车

陶哲轩打了个比方：AI就像刚发明的汽车，而现在的学术期刊、会议制度，还是几百年前为马车和行人修的“石板路”。车是好车，但路太窄、太乱，人车混行，结果就是谁都动不了。光升级汽车（AI）没用，必须重新修路（改革科研基础设施）。

3. 怎么修新路？搞竞赛！

他的思路是：别把AI和人类放在同一个赛道里竞争，而是给它们分别建“高速公路”和“人行道”。他牵头办的SAIR竞赛，就是两条新路。

他重点介绍了其中两个比赛：

第一个比赛：蒸馏挑战
- 干什么？ 他们之前搞了一个包含2200万个代数判断题的超大题库。顶级AI模型虽然能做对这些题，但耗时耗钱。
- 比什么？ 这次比赛，他们让参赛者给一个很笨的小模型写一份“考试小抄”（一页纸的提示）。谁能让这个小模型用最少的成本，做对这2200万道题里的最多题目，谁就赢。
- 结果？ 目前最好的“小抄”已经把模型的正确率从50%（瞎蒙水平）提高到了80%。
第二个比赛：逆伽罗瓦问题 / “寻蛋大赛”
- 干什么？ 这更像一个大型“集卡游戏”或“寻宝游戏”。他们要寻找一种特殊的多项式（可以想象成不同颜色的“彩蛋”），一共有16万种颜色（对应不同的数学属性）。
- 怎么玩？ 参赛者需要提交自己找到的“彩蛋”。如果你找到一个别人都没找到的稀有颜色，你就得分。目的是用这种“市场竞争”的方式，摸清哪些数学对象是常见的，哪些是极其罕见的。
- 意义？ 以前数学靠推理，不太做实验。现在有了AI和众包，数学也能像自然科学一样做大规模实验了。

完整的要点如下：

📘 全文总标题：陶哲轩｜数学进入 21 世纪：AI 时代的"证明消化不良"与 SAIR 竞赛新范式

第一部分 **数学两百年未变，AI 打破了传统研究生命周期（约 0%–22%）**

1 教科书与黑板的"时间凝固"：陶哲轩开场点题"数学正在进入 21 世纪"。左手一张 200 年前法国教材的图，方程排版数学家一眼能认——两百年来数学的外在形式几乎没变，latex 之类只是小修小补；黑板甚至成了 Jessica Win 拍成咖啡桌书的艺术题材。
2 数学问题的传统生命周期：一个问题从提出 → 证明被逐步生成、被理解、被消化 → 最终进教科书，现在又多了一站：喂给 AI 做训练数据。
3 AI 只加速了前半段：AI 在"证明生成 / 解题 / 部分验证"上跑得很快，但"消化"环节（理解、整理、体系化）没跟上，于是出现陶哲轩说的 proof indigestion（证明消化不良） 或"数学交通堵塞"。
4 瓶颈已在各处显现：期刊被低质量 AI 生成论文淹没，人类审稿资源不够；一些解题网站方案堆积却没人验。结论——传统框架（期刊/会议）扛不住无限制的 AI 使用，继续往旧基建上堆 AI 反而会挤掉人类贡献。

第二部分 **汽车与马路的类比：重写科研基础设施（约 22%–42%）**

1 19 世纪末的汽车隐喻：汽车刚出现时，路上只有 19 世纪那种窄石板路，人车混行、无交规、很乱。后来技术再进步（更快更省油更安全），也解决不了拥堵——因为路不对。
2 数学/科学今天的位置：就相当于那个"汽车跑在石板巷"的阶段。AI 是汽车，期刊会议是老路。
3 出路是分层基建：后来社会分出了汽车专用道、火车道、摩托车道、步行道，还有少量混合道——共存但不互踩。城市也可能"偏袒汽车"，不是完美方案，但比全混在一起强太多。
4 对数学的启示：保留期刊和传统研究流程的价值（"步行道"），同时新建能安全容纳 AI 的轨道——这就是他在 SAIR（Safe AI for Research）在做的事，竞赛是其中一个 venue。

第三部分 **SAIR 竞赛之一：蒸馏挑战（Distillation Challenge）（约 42%–62%）**

1 背景来自"Equation of Theories"项目：两年前陶哲轩做过一个众包实验，用现代工具在代数里生成了 2200 万个 True/False 问题（难度≈研究生一小时一题），最终全部被解决，得到一个庞大的代数数据集。
2 单个问题对 AI 不难，整体结构没人知道：把任意一题丢给 frontier 模型，花 30 分钟几美元算力，99% 能对——但这不告诉你数据集的"特征"是什么，能否浓缩描述？
3 赛题设计：不用贵的前端模型，改用极便宜的开源小模型（裸跑正确率 ≈ 51%，比随机好一点）。比赛让大家提交 一页 cheat sheet（提示页），帮这些"弱 AI"在这 2200 万题的"代数期中考"上拿分。Cheat sheet 人要能读、AI 也要能读。
4 目标：把 2200 万题背后的知识蒸馏到一页纸，提炼数据集的本质。
5 目前进展：最优 cheat sheet 已把弱模型正确率从 50% 拉到 80% 左右，提升 20–30 个百分点。下一阶段（仍在进行）要让弱模型不只答对错，还能写出证明和详细解释——难得多。
6 一页纸长什么样：幻灯片上那张 cheat sheet 看着密，但确实编码了大量关于这类问题的信息（受一页限制，形式紧凑）。

注：陶哲轩说时间紧，跳过了第二个竞赛没讲，直接讲第三个。

第四部分 **SAIR 竞赛之三：逆伽罗瓦问题 / LMFDB "复活节寻蛋"（约 62%–85%）**

1 合作方与数据库：与 LMFDB（L 函数与模形式数据库） 合作，LMFDB 是数论、密码学等领域核心数学对象的大库。

2 问题通俗化：集换式卡/复活节寻蛋：要找的是 22–24 次多项式（"蛋"），每个多项式有个属性叫 Galois 群（"颜色"）。一共约 16 万种颜色，目标是每种颜色至少收集到一个多项式——即"逆伽罗瓦问题"的一个实验版：是否每种 Galois 群都可达？这是伽罗瓦理论大 open question。

3 验证极便宜：输入 24 个整数就是一道多项式，现代软件秒算它的 Galois 群"颜色"——所以单人提交、官方验证，成本很低。

4 两阶段赛制：

竞争阶段（正在进行）：队伍提交多项式，不公开自己的"蛋库"；某种颜色如果是某队独家首次提交 → 独得 1 分；多队撞色 → 按较复杂公式分摊分数。目的：用"市场力量"倒逼大家去找最难的颜色（稀有蛋），而哪些难哪些易事先并不知道，要靠竞赛揭出来。
合作阶段（还没开）：竞争结束后转合作，共享数据。

5 为什么这事传统数学做不了：数学一向不是实验科学，没多少 empirical data 可看"哪些 Galois 群稀有哪些常见"——AI + 众包 + 大规模计算第一次让实验性研究数学对象成为可能。

6 赛况与社区反响：

进度图显示有些队明显重度用 AI，暂时领先，但领先不稳——别人若复现同色就能"抢分"，榜单位置会波动（三天前的图已经不单调了，有逆袭）。
代数方向的数学会议里大家都在聊这个赛，有人组私队，挺兴奋。
陶哲轩特意点：这和传统数学家"饭碗"是正交的，不是 AI 来抢活，而是开辟新能力——就像"人走路的道"和"AI 跑的道"分开，各有各的竞赛形态。

第五部分 **扩展示望：从数学走向更广的科学竞赛（约 85%–100%）**

1 当前规模小：三个竞赛跑在极小预算上，就几个工程师 + 一些算力。
2 想放大：未来希望做更大规模、更高算力、带高规格奖金的竞赛；目前全在数学领域，因为数学"提交可验证、打分容易"是最干净的试验田。
3 原则上可推广到其他科学：只要有"大家想采集的大数据集"+ 能众包做的任务，就可以谈合作设赛。SAIR 近期准备发 formal call for proposals，内部还在通过董事会邮件讨论怎么搞最好。
4 收尾：陶哲轩说下次会再汇报这几个赛的后续，谢幕。

DEV Community

[SAIR播客]陶哲轩：AI 时代的"证明消化不良"与竞赛新范式

完整的要点如下：

Top comments (0)