Skip to content

DEV Community

cognitalk

Posted on Jun 18

OpenAI 如何评估日益强大的 AI 模型、基准测试（Benchmarks）的演变以及 AI 对未来的现实影响

https://www.youtube.com/watch?v=CFqjjKp9Y-Q
这段视频是 OpenAI 官方播客的第 21 期，由 Andrew Mayne 主持，邀请了 OpenAI 前沿评估（Frontier Evals）团队的研究负责人 Tejal Patwardhan。

他们主要围绕如何评估日益强大的 AI 模型、基准测试（Benchmarks）的演变以及 AI 对未来的现实影响展开了深度讨论。以下是视频的核心内容摘要：

核心讨论内容

1. 评估（Evals）的重要性与“能力悬结”

走在未来的前面： Tejal 认为评估工作非常迷人，因为它能在技术被大众广泛采用之前，先一步预测和衡量模型的真实进展 [01:39]。
能力悬结（Capability Overhang）： 这是一个指模型早已具备某些能力，但由于文化、法律或监管等现实因素，人类尚未开始正式采用的阶段。通过评估可以提前看到未来 [01:47]。

2. 基准测试的失效与挑战：Benchmaxing & 饱和

刷榜欺骗（Benchmaxing）： 指某些团队为了让模型在特定的公开测试中拿高分（用于营销宣传），把 90% 的算力花在针对性优化上，但实际上模型并不好用 [12:23]。OpenAI 强调他们更专注于提升模型的“通用能力” [13:16]。
测试饱和（Saturated）： 当模型在某个基准测试中接近 100% 满分时，这个测试就失效了，就像用高中数学题去分辨两个天才一样。因此，团队必须不断开发更有野心、更具现实复杂度的全新测试 [14:07]。

3. 从学术测试到“现实工作评估”的飞跃

GDPval 基准： 团队曾经历过测试饱和的危机，后来根据劳工统计局的职业清单开发了 GDPval，直接给模型布置像金融分析师写尽职调查、律师写备忘录等真实的跨行业复杂任务 [15:00]。
未来的方向： 现在的基准可能还是太死板（提示词给得太详细）。下一步的演进是给模型极具模糊性的任务，像对待真实员工一样，让模型自己去规划、分析并交付结果 [16:55]。

4. 科学前沿的突破（打通物理世界）

视频中分享了一个令人兴奋的突破：模型在与 Ginkgo Bioworks 合作的自动化湿实验室（Wet Lab）机器人测试中，负责优化蛋白质合成的方案 [26:00]。
最终，模型击败了人类基准线，创造了在特定单位成本下合成该蛋白质（与卵巢癌药物相关）的最高产量。这是评估第一次不仅仅停留在等代码运行，而是等待物理世界的机器人完成实验 [26:37]。

5. 谈 AGI 与未来预测

不要低估模型： Tejal 直言，她对外界“AI 撞墙/遇到瓶颈”的言论感到无奈，根据 OpenAI 的路线图，模型根本没有停止进步的迹象，很多人对 AI 发展的预期依然太保守 [08:00]。
计算机使用（Computer Use）： 她预测到今年（2026年）年底，AI 使用电脑的速度和熟练度将会超过人类。她透露自己已经习惯让模型率先帮她处理各种日常工作（发 Slack、排日程等） [31:52]。
对大众的建议： 即使你上周觉得某个 AI 不好用，下周也请再试一次，因为它迭代得实在太快了 [31:04]。

趣味彩蛋： Tejal 在视频中提到，团队内部有很多未公开的测试基准，其中一个叫 "Houdini Bench"（胡迪尼基准）。由于主持人 Andrew 曾经是一名魔术师（胡迪尼是著名魔术师），Tejal 调侃说 Andrew 可能都过不了这个测试，但拒绝透露更多细节 [20:18]。

Top comments (0)

Subscribe