5月22日,Anthropic在旧金山举办了首次开发者大会,Claude Opus 4和Claude Sonnet 4正式发布。这家公司估值已经超过610亿美元,正在用实力证明:AI的边界远比我们想象的要宽广。
一个让程序员沉默的测试案例
Rakuten的AI总经理分享了一个真实场景:Claude Opus 4被部署到一个复杂项目上后,独立编码了近7个小时。
不是7分钟,是7个小时。
这个案例在开发者圈子里引发了激烈讨论。有人质疑真实性,有人开始担心自己的职业前景。但更多的人想知道:这到底是怎么做到的?
记忆系统:AI终于有了"工作笔记"
Claude 4最被低估的升级可能是它的记忆能力。
过去的AI模型有个通病:记不住自己做过什么。每次对话都是新的开始,上下文长了就丢失细节。Claude 4改变了这一点。它使用类似文件系统的方式来跟踪进度,会主动检查已存储的信息,然后根据情况调整下一步行动。
编程能力:基准测试背后的真相
Anthropic宣称Claude Opus 4是"世界上最好的编程模型"。这个说法有数据支撑。
在软件工程任务的基准测试中,Claude 4系列的两个模型都超过了OpenAI的最新模型,Google的最好模型则落在后面。
安全升级:ASL-3意味着什么
Claude 4发布时带有一个重要标签:ASL-3。这是Anthropic负责任扩展政策中的第三级安全标准。之前的所有Claude模型都是ASL-2级别。主动提升到ASL-3意味着Anthropic认为Claude Opus 4可能具备更危险的能力阈值,需要更强的防护措施。
我的看法
Claude 4的发布让我想到了一个老问题:程序员会被AI取代吗?
7小时独立编码的案例听起来吓人,但仔细看细节:这是一个特定场景下的特定任务。AI代理确实在变强,但它仍然需要人类设定目标、确认方向、验收结果。
更可能的未来是协作模式的进化。初级程序员的工作会被大量自动化,但高级程序员会获得更强的杠杆。一个人加上AI,可能完成过去需要一个团队的工作。
原文发表于 WDSEGA Blog
参考来源:Fortune - Anthropic unveils its most powerful AI models yet
Top comments (0)