https://www.youtube.com/watch?v=CFqjjKp9Y-Q
这段视频是 OpenAI 官方播客的第 21 期,由 Andrew Mayne 主持,邀请了 OpenAI 前沿评估(Frontier Evals)团队的研究负责人 Tejal Patwardhan。
他们主要围绕如何评估日益强大的 AI 模型、基准测试(Benchmarks)的演变以及 AI 对未来的现实影响展开了深度讨论。以下是视频的核心内容摘要:
核心讨论内容
1. 评估(Evals)的重要性与“能力悬结”
- 走在未来的前面: Tejal 认为评估工作非常迷人,因为它能在技术被大众广泛采用之前,先一步预测和衡量模型的真实进展 [01:39]。
- 能力悬结(Capability Overhang): 这是一个指模型早已具备某些能力,但由于文化、法律或监管等现实因素,人类尚未开始正式采用的阶段。通过评估可以提前看到未来 [01:47]。
2. 基准测试的失效与挑战:Benchmaxing & 饱和
- 刷榜欺骗(Benchmaxing): 指某些团队为了让模型在特定的公开测试中拿高分(用于营销宣传),把 90% 的算力花在针对性优化上,但实际上模型并不好用 [12:23]。OpenAI 强调他们更专注于提升模型的“通用能力” [13:16]。
- 测试饱和(Saturated): 当模型在某个基准测试中接近 100% 满分时,这个测试就失效了,就像用高中数学题去分辨两个天才一样。因此,团队必须不断开发更有野心、更具现实复杂度的全新测试 [14:07]。
3. 从学术测试到“现实工作评估”的飞跃
-
GDPval 基准: 团队曾经历过测试饱和的危机,后来根据劳工统计局的职业清单开发了
GDPval,直接给模型布置像金融分析师写尽职调查、律师写备忘录等真实的跨行业复杂任务 [15:00]。 - 未来的方向: 现在的基准可能还是太死板(提示词给得太详细)。下一步的演进是给模型极具模糊性的任务,像对待真实员工一样,让模型自己去规划、分析并交付结果 [16:55]。
4. 科学前沿的突破(打通物理世界)
- 视频中分享了一个令人兴奋的突破:模型在与 Ginkgo Bioworks 合作的自动化湿实验室(Wet Lab)机器人测试中,负责优化蛋白质合成的方案 [26:00]。
- 最终,模型击败了人类基准线,创造了在特定单位成本下合成该蛋白质(与卵巢癌药物相关)的最高产量。这是评估第一次不仅仅停留在等代码运行,而是等待物理世界的机器人完成实验 [26:37]。
5. 谈 AGI 与未来预测
- 不要低估模型: Tejal 直言,她对外界“AI 撞墙/遇到瓶颈”的言论感到无奈,根据 OpenAI 的路线图,模型根本没有停止进步的迹象,很多人对 AI 发展的预期依然太保守 [08:00]。
- 计算机使用(Computer Use): 她预测到今年(2026年)年底,AI 使用电脑的速度和熟练度将会超过人类。她透露自己已经习惯让模型率先帮她处理各种日常工作(发 Slack、排日程等) [31:52]。
- 对大众的建议: 即使你上周觉得某个 AI 不好用,下周也请再试一次,因为它迭代得实在太快了 [31:04]。
趣味彩蛋: Tejal 在视频中提到,团队内部有很多未公开的测试基准,其中一个叫 "Houdini Bench"(胡迪尼基准)。由于主持人 Andrew 曾经是一名魔术师(胡迪尼是著名魔术师),Tejal 调侃说 Andrew 可能都过不了这个测试,但拒绝透露更多细节 [20:18]。
Top comments (0)