Claude Opus 4.8刷榜ARC-AGI-3,1.5%得分成新SOTA,未知场景适应能力成AI新战场?
Claude Opus 4.8登顶ARC - AGI - 3榜单高成本换来高分数就在刚刚Claude Opus 4.8High拿下ARC - AGI - 3榜单榜首RHAE得分1.5%是第二名的3倍。不过跑一次评测要花费1万美元。此前纪录保持者Opus 4.6Max得分0.5%GPT - 5.5更惨只有0.4%。ARC - AGI - 3AI的“地狱级”考试考验Agent能力ARC - AGI - 3与之前的ARC - AGI - 1和2不同前两者是有标准答案的填空题而ARC - AGI - 3是将AI扔进一个陌生游戏无说明、无提示考验其自主探索、推断规则和规划路线的能力即Agent能力。测试发布后前沿AI得分归零。Opus 4.8升级押宝Agent能力与GPT - 5.5拉开差距Opus 4.8在大多数传统benchmark上是在Opus 4.7基础上小幅涨分但在所有和Agent相关的评测上表现突变。如SWE - bench Pro从64.3%涨到69.2%领先GPT - 5.5超10个百分点Online - Mind2Web拿下84%超过Opus 4.7和GPT - 5.5。而GPT - 5.5在静态推理上很强但在复杂环境持续操作任务中掉速。Opus 4.8解题抽象层级提升带来进步也有新bugARC Prize官方给出Opus 4.8解题过程其相比Opus 4.7提升了抽象层级从逐像素处理画面到识别出物体和系统。在ar25环境中5帧推导出镜像反射规则24步通关第一关lp85环境表现亮眼。但在dc22环境第4关锁死在错误子目标上出现新的失败模式。ARC - AGI系列预言AI主战场未来竞赛核心转向未知场景适应ARC - AGI每换一代都精准预言下一波AI主战场ARC - AGI - 1预言推理革命ARC - AGI - 2预言编程Agent爆发ARC - AGI - 3测试交互式环境自主探索与适应能力。接下来竞赛核心可能是谁能在未知世界更快搞清状况。编辑观点Claude Opus 4.8在ARC - AGI - 3测试中展现出强大的未知场景适应能力这或成未来AI竞争关键GPT - 5.5需在该领域发力否则可能在新竞赛中落后。