DEV Community

cognitalk
cognitalk

Posted on

[SAIR播客]陶哲轩:AI 时代的"证明消化不良"与竞赛新范式


https://www.youtube.com/watch?v=nbZA4N7BDCU
陶哲轩这场演讲的核心内容用大白话说就是这么几件事:

1. 数学界现在遇到了“消化不良”

过去几百年,数学研究的节奏很慢。一个成果出来,要经过同行评审、反复验证、慢慢消化,最后写进教科书。整个过程就像一条顺畅的生产线。

但现在AI来了,它写证明、解难题的速度飞快,像一台高速印刷机,“生产”出来的东西一下子堆满了仓库。但人类评审员根本来不及看,很多AI生成的论文质量又差,这就造成了“证明消化不良”,或者说是学术界的“交通堵塞”。

2. 不能用老路跑新车

陶哲轩打了个比方:AI就像刚发明的汽车,而现在的学术期刊、会议制度,还是几百年前为马车和行人修的“石板路”。车是好车,但路太窄、太乱,人车混行,结果就是谁都动不了。光升级汽车(AI)没用,必须重新修路(改革科研基础设施)。

3. 怎么修新路?搞竞赛!

他的思路是:别把AI和人类放在同一个赛道里竞争,而是给它们分别建“高速公路”和“人行道”。他牵头办的SAIR竞赛,就是两条新路。

他重点介绍了其中两个比赛:

  • 第一个比赛:蒸馏挑战

    • 干什么? 他们之前搞了一个包含2200万个代数判断题的超大题库。顶级AI模型虽然能做对这些题,但耗时耗钱。
    • 比什么? 这次比赛,他们让参赛者给一个很笨的小模型写一份“考试小抄”(一页纸的提示)。谁能让这个小模型用最少的成本,做对这2200万道题里的最多题目,谁就赢。
    • 结果? 目前最好的“小抄”已经把模型的正确率从50%(瞎蒙水平)提高到了80%。
  • 第二个比赛:逆伽罗瓦问题 / “寻蛋大赛”

    • 干什么? 这更像一个大型“集卡游戏”或“寻宝游戏”。他们要寻找一种特殊的多项式(可以想象成不同颜色的“彩蛋”),一共有16万种颜色(对应不同的数学属性)。
    • 怎么玩? 参赛者需要提交自己找到的“彩蛋”。如果你找到一个别人都没找到的稀有颜色,你就得分。目的是用这种“市场竞争”的方式,摸清哪些数学对象是常见的,哪些是极其罕见的。
    • 意义? 以前数学靠推理,不太做实验。现在有了AI和众包,数学也能像自然科学一样做大规模实验了。



完整的要点如下:

📘 全文总标题:陶哲轩|数学进入 21 世纪:AI 时代的"证明消化不良"与 SAIR 竞赛新范式


第一部分 **数学两百年未变,AI 打破了传统研究生命周期(约 0%–22%)**

1 教科书与黑板的"时间凝固":陶哲轩开场点题"数学正在进入 21 世纪"。左手一张 200 年前法国教材的图,方程排版数学家一眼能认——两百年来数学的外在形式几乎没变,latex 之类只是小修小补;黑板甚至成了 Jessica Win 拍成咖啡桌书的艺术题材。
2 数学问题的传统生命周期:一个问题从提出 → 证明被逐步生成、被理解、被消化 → 最终进教科书,现在又多了一站:喂给 AI 做训练数据。
3 AI 只加速了前半段:AI 在"证明生成 / 解题 / 部分验证"上跑得很快,但"消化"环节(理解、整理、体系化)没跟上,于是出现陶哲轩说的 proof indigestion(证明消化不良) 或"数学交通堵塞"。
4 瓶颈已在各处显现:期刊被低质量 AI 生成论文淹没,人类审稿资源不够;一些解题网站方案堆积却没人验。结论——传统框架(期刊/会议)扛不住无限制的 AI 使用,继续往旧基建上堆 AI 反而会挤掉人类贡献。


第二部分 **汽车与马路的类比:重写科研基础设施(约 22%–42%)**

1 19 世纪末的汽车隐喻:汽车刚出现时,路上只有 19 世纪那种窄石板路,人车混行、无交规、很乱。后来技术再进步(更快更省油更安全),也解决不了拥堵——因为路不对。
2 数学/科学今天的位置:就相当于那个"汽车跑在石板巷"的阶段。AI 是汽车,期刊会议是老路。
3 出路是分层基建:后来社会分出了汽车专用道、火车道、摩托车道、步行道,还有少量混合道——共存但不互踩。城市也可能"偏袒汽车",不是完美方案,但比全混在一起强太多。
4 对数学的启示:保留期刊和传统研究流程的价值("步行道"),同时新建能安全容纳 AI 的轨道——这就是他在 SAIR(Safe AI for Research)在做的事,竞赛是其中一个 venue。


第三部分 **SAIR 竞赛之一:蒸馏挑战(Distillation Challenge)(约 42%–62%)**

1 背景来自"Equation of Theories"项目:两年前陶哲轩做过一个众包实验,用现代工具在代数里生成了 2200 万个 True/False 问题(难度≈研究生一小时一题),最终全部被解决,得到一个庞大的代数数据集。
2 单个问题对 AI 不难,整体结构没人知道:把任意一题丢给 frontier 模型,花 30 分钟几美元算力,99% 能对——但这不告诉你数据集的"特征"是什么,能否浓缩描述
3 赛题设计:不用贵的前端模型,改用极便宜的开源小模型(裸跑正确率 ≈ 51%,比随机好一点)。比赛让大家提交 一页 cheat sheet(提示页),帮这些"弱 AI"在这 2200 万题的"代数期中考"上拿分。Cheat sheet 人要能读、AI 也要能读。
4 目标:把 2200 万题背后的知识蒸馏到一页纸,提炼数据集的本质。
5 目前进展:最优 cheat sheet 已把弱模型正确率从 50% 拉到 80% 左右,提升 20–30 个百分点。下一阶段(仍在进行)要让弱模型不只答对错,还能写出证明和详细解释——难得多。
6 一页纸长什么样:幻灯片上那张 cheat sheet 看着密,但确实编码了大量关于这类问题的信息(受一页限制,形式紧凑)。

注:陶哲轩说时间紧,跳过了第二个竞赛没讲,直接讲第三个。


第四部分 **SAIR 竞赛之三:逆伽罗瓦问题 / LMFDB "复活节寻蛋"(约 62%–85%)**

1 合作方与数据库:与 LMFDB(L 函数与模形式数据库) 合作,LMFDB 是数论、密码学等领域核心数学对象的大库。

2 问题通俗化:集换式卡/复活节寻蛋:要找的是 22–24 次多项式("蛋"),每个多项式有个属性叫 Galois 群("颜色")。一共约 16 万种颜色,目标是每种颜色至少收集到一个多项式——即"逆伽罗瓦问题"的一个实验版:是否每种 Galois 群都可达?这是伽罗瓦理论大 open question。

3 验证极便宜:输入 24 个整数就是一道多项式,现代软件秒算它的 Galois 群"颜色"——所以单人提交、官方验证,成本很低。

4 两阶段赛制

  • 竞争阶段(正在进行):队伍提交多项式,不公开自己的"蛋库";某种颜色如果是某队独家首次提交 → 独得 1 分;多队撞色 → 按较复杂公式分摊分数。目的:用"市场力量"倒逼大家去找最难的颜色(稀有蛋),而哪些难哪些易事先并不知道,要靠竞赛揭出来。
  • 合作阶段(还没开):竞争结束后转合作,共享数据。

5 为什么这事传统数学做不了:数学一向不是实验科学,没多少 empirical data 可看"哪些 Galois 群稀有哪些常见"——AI + 众包 + 大规模计算第一次让实验性研究数学对象成为可能。

6 赛况与社区反响

  • 进度图显示有些队明显重度用 AI,暂时领先,但领先不稳——别人若复现同色就能"抢分",榜单位置会波动(三天前的图已经不单调了,有逆袭)。
  • 代数方向的数学会议里大家都在聊这个赛,有人组私队,挺兴奋。
  • 陶哲轩特意点:这和传统数学家"饭碗"是正交的,不是 AI 来抢活,而是开辟新能力——就像"人走路的道"和"AI 跑的道"分开,各有各的竞赛形态。

第五部分 **扩展示望:从数学走向更广的科学竞赛(约 85%–100%)**

1 当前规模小:三个竞赛跑在极小预算上,就几个工程师 + 一些算力。
2 想放大:未来希望做更大规模、更高算力、带高规格奖金的竞赛;目前全在数学领域,因为数学"提交可验证、打分容易"是最干净的试验田。
3 原则上可推广到其他科学:只要有"大家想采集的大数据集"+ 能众包做的任务,就可以谈合作设赛。SAIR 近期准备发 formal call for proposals,内部还在通过董事会邮件讨论怎么搞最好。
4 收尾:陶哲轩说下次会再汇报这几个赛的后续,谢幕。

Top comments (0)