Anthropic 又半夜发东西了。这次是 Claude Sonnet 5。就今天。Cursor 同步上线,已经在设置里可以切了。数据上,Cursor 官方说的是 CursorBench 从 Sonnet 4.6 的 49% 跳到 57%。SWE-bench Verified 跑到了 85.20%。部分 Agent 任务直接逼近 Opus 4.8。乍一看是个常规升级。但有几个数字细看一下挺有意思。怎么讲呢,主要是 8 个百分点这个数。乍看不大,细想不小。CursorBench 涨了8个百分点,什么概念CursorBench 不是那种「AI做了道LeetCode题」的竞赛榜单。它是 Cursor 自己搞的测试,全是不明确的、跨多个文件的任务。模拟的是你真正在用AI写代码时遇到的那种情况。不是「写一个排序算法」,是「这个文件改了之后,另外三个文件也得跟着改,但你得自己判断改哪」。说实话,这种测试才接近真实开发场景。从 49% 到 57%,涨了 8 个百分点。看着不多,但在这个量级每涨一个点都不容易。而且 57% 意味着超过一半的复杂多文件编程任务,AI可以自己搞定了,不需要你一条条交代。我觉得这才是真正应该关注的数字。不是它比上一代强了多少,是它到了「大部分真实任务能自己跑通」的临界线附近。关键是 Agent 能力这次升级宣发重复最多的词是 Agent。Sonnet 5 能制定计划。调用浏览器。操作终端。自己做判断然后执行。不是「你问它答」的模式。是「你交代目标和约束,它想办法完成」。这个跟前两天我们聊的那个话题完全对上了。从「跟AI聊天」到「让AI自己干活」那一步。Anthr