Claude Opus 4.7 上手实测:代码能力到底涨了多少?附迁移避坑指南
上周4月16日Anthropic 发布了 Claude Opus 4.7。我第一时间切到这个模型跑了几天说说真实感受和具体数据。先看数字代码能力到底涨了多少直接贴 Anthropic 官方公布的基准测试数据跟 Opus 4.6 和 GPT-5.4 对比测试项Opus 4.6Opus 4.7GPT-5.4SWE-bench Verified80.8%87.6%—SWE-bench Pro多语言53.4%64.3%57.7%CursorBench58%70%—MCP-Atlas工具调用75.8%77.3%68.1%Terminal-Bench 2.065.4%69.4%75.1%GPQA Diamond91.3%94.2%94.4%BrowseComp网页搜索83.7%79.3%89.3%拆开看看SWE-bench Verified 从 80.8% 跳到 87.6%接近 7 个百分点。这个测试是 500 个经过人工验证的 GitHub issue模型要端到端地修复。Cursor CEO 也在自家 CursorBench 上实测了 58% → 70% 的提升。MCP-Atlas 测试里 Opus 4.7 拿了 77.3%这个数字在所有公开模型里最高。如果你在做多工具调用的 Agent 编排这是最该关注的指标。但有个退步BrowseComp 从 83.7% 掉到 79.3%。如果你的 Agent 大量依赖网页搜索和信息抓取这个退步要留意。最有用的新功能自验证行为跑了几天之后我觉得最实际的改进不在跑分上而是模型的自验证行为。以前用 Opus 4.6 写完代码它经常直接告诉你搞定了。你一跑发现有 bug。Opus 4.7 不一样——它写完代码后会自己跑测试发现问题就自己修修完再跑确认通过了才报告完成。Notion AI 团队说 Opus 4.7 是第一个通过我们隐式需求测试的模型——就是那些不明确告诉模型该调什么工具、模型需要自己推断的场景。Hex 的 CTO 也提到这个模型在数据缺失时会直接说缺数据不会编一个看起来合理但实际上错误的答案。实际体感就是以前用 Claude Code 做复杂重构写完了我还得盯着跑一遍经常要改两三轮。换了 Opus 4.7 之后它自己跑测试、自己修我收到结果时已经是能用的了。省了不少来回。实操怎么切换到 Opus 4.7API 调用模型 ID 从claude-opus-4-6改成claude-opus-4-7价格没变——输入 $5/百万 token输出 $25/百万 token。Python 示例import anthropic client anthropic.Anthropic() response client.messages.create( modelclaude-opus-4-7, # 之前是 claude-opus-4-6 max_tokens4096, messages[ {role: user, content: 帮我写一个 Python 装饰器记录函数执行时间并自动重试失败的请求} ] ) print(response.content[0].text)Claude Code 里切换Claude Code 已经更新支持 Opus 4.7直接在终端里操作# 切换模型 /model claude-opus-4-7 # 设置 effort 等级下面会讲 /effort xhigh # 或者启动时指定 claude --model claude-opus-4-7 --effort xhigh也可以通过环境变量设置export CLAUDE_CODE_MODELclaude-opus-4-7 export CLAUDE_CODE_EFFORT_LEVELxhigh在 Cursor 里用Cursor 的模型选择器里已经有 Opus 4.7 了直接下拉菜单切换。新的 effort 等级xhighOpus 4.7 新增了一个xhigheffort 等级在原来的high和max之间。Claude Code 现在默认用 xhigh。之前的等级是 low、medium、high、max。现在多了个 xhigh。Hex 团队有个观察挺有意思低 effort 的 Opus 4.7 大约等于中等 effort 的 Opus 4.6。按这个换算如果你之前在 Opus 4.6 上用 high那现在 Opus 4.7 上用 xhigh 是对等选择。具体怎么设# Claude Code 内部 /effort xhigh # API 调用时设置 response client.messages.create( modelclaude-opus-4-7, max_tokens4096, thinking{ type: enabled, budget_tokens: 10000 }, messages[...] )简单任务用 medium 就够了复杂的代码重构或者多步骤 Agent 任务再上 xhigh。别什么都用 max费钱而且慢。Task Budget控制 Agent 的 token 开销这个是公开测试阶段的新功能。以前 Agent 跑长任务时token 消耗经常失控。Task Budget 给模型设一个 token 上限模型会看到一个倒计时在预算快用完时自动收束任务。用法是在请求头里加 beta 标识response client.messages.create( modelclaude-opus-4-7, max_tokens4096, extra_headers{ anthropic-beta: task-budgets-2026-03-13 }, task_budget50000, # token 上限 messages[...] )实际跑下来设 50000 token 预算能覆盖大多数中等复杂度的编码任务。如果是大型重构建议设到 100000 以上。视觉能力分辨率提升 3.3 倍Opus 4.7 处理图片的最大分辨率从 1568px约 1.15MP提升到 2576px约 3.75MP。这个是模型级别的改动不需要改任何 API 参数传图片进去自动按高分辨率处理。做 Computer Use 的开发者受益最大。以前 Opus 4.6 做屏幕操作时坐标经常对不上——因为截图被降采样了模型输出的像素坐标和实际屏幕坐标有偏差需要额外加一步缩放校正。Opus 4.7 不用了。截图坐标和屏幕坐标 1:1 对应。XBOW Visual Acuity 测试从 54.5% 飙到 98.5%几乎满分。如果你在做 UI 自动化 Agent这个改进省掉了不少麻烦。迁移要注意的坑虽然 API 层面改个模型 ID 就行但有两个地方要留意。1. Tokenizer 变了Opus 4.7 换了新的 tokenizer。同样的文本token 数量可能比之前多 1x 到 1.35x。虽然单价没变但同样的请求实际花费可能贵 10% - 35%。建议迁移前先拿你的典型 prompt 跑一遍对比一下 token 消耗。2. BrowseComp 下降前面说过了网页搜索能力有退步。如果你的系统里有依赖模型做大量网页调研的环节先测一下实际表现再决定是否切换。3. Cyber 安全限制Opus 4.7 内置了网络安全方面的限制会自动检测和拦截部分安全相关请求。如果你在做合法的安全测试渗透测试、红队演练需要加入 Anthropic 的 Cyber Verification Program 才能正常使用。我的建议做编码 Agent 的话直接切。代码能力提升是实打实的自验证减少了返工次数xhigh effort 在效果和成本之间也有不错的平衡。做网页搜索和信息搜集的 Agent 先等等。BrowseComp 掉了 4 个点先拿你自己的场景测一下别盲目跟进。另外注意新 tokenizer 的额外开销同样的 prompt 可能多花 10% - 35%。迁移前先对比一下 token 数量。Anthropic 还有个更强的 Mythos Preview 模型但只对少数企业合作伙伴开放。对大多数开发者来说Opus 4.7 就是当前能用的天花板。