Claude Opus 4.8刷榜ARC-AGI-3，1.5%得分成新SOTA，未知场景适应能力成AI新战场？

张

张建站

2026/6/4 19:49:59

10分钟阅读

Claude Opus 4.8刷榜ARC-AGI-3，1.5%得分成新SOTA，未知场景适应能力成AI新战场？

Claude Opus 4.8登顶ARC - AGI - 3榜单高成本换来高分数就在刚刚Claude Opus 4.8High拿下ARC - AGI - 3榜单榜首RHAE得分1.5%是第二名的3倍。不过跑一次评测要花费1万美元。此前纪录保持者Opus 4.6Max得分0.5%GPT - 5.5更惨只有0.4%。ARC - AGI - 3AI的“地狱级”考试考验Agent能力ARC - AGI - 3与之前的ARC - AGI - 1和2不同前两者是有标准答案的填空题而ARC - AGI - 3是将AI扔进一个陌生游戏无说明、无提示考验其自主探索、推断规则和规划路线的能力即Agent能力。测试发布后前沿AI得分归零。Opus 4.8升级押宝Agent能力与GPT - 5.5拉开差距Opus 4.8在大多数传统benchmark上是在Opus 4.7基础上小幅涨分但在所有和Agent相关的评测上表现突变。如SWE - bench Pro从64.3%涨到69.2%领先GPT - 5.5超10个百分点Online - Mind2Web拿下84%超过Opus 4.7和GPT - 5.5。而GPT - 5.5在静态推理上很强但在复杂环境持续操作任务中掉速。Opus 4.8解题抽象层级提升带来进步也有新bugARC Prize官方给出Opus 4.8解题过程其相比Opus 4.7提升了抽象层级从逐像素处理画面到识别出物体和系统。在ar25环境中5帧推导出镜像反射规则24步通关第一关lp85环境表现亮眼。但在dc22环境第4关锁死在错误子目标上出现新的失败模式。ARC - AGI系列预言AI主战场未来竞赛核心转向未知场景适应ARC - AGI每换一代都精准预言下一波AI主战场ARC - AGI - 1预言推理革命ARC - AGI - 2预言编程Agent爆发ARC - AGI - 3测试交互式环境自主探索与适应能力。接下来竞赛核心可能是谁能在未知世界更快搞清状况。编辑观点Claude Opus 4.8在ARC - AGI - 3测试中展现出强大的未知场景适应能力这或成未来AI竞争关键GPT - 5.5需在该领域发力否则可能在新竞赛中落后。

【花雕学编程】Arduino BLDC 之机器人融合虚拟力场（VFF）的自适应避障跟随

基于专业视角，Arduino BLDC之机器人融合虚拟力场（VFF）的自适应避障跟随，是一种将目标吸引力与障碍排斥力进行矢量合成，从而实时生成局部运动指令的机器人导航方法。其核心在于，使机器人能同时完成对移动目标…...

2026/6/4 19:49:38 阅读更多 →

Codex + 天工 SkyClaw：手把手教你搭建国产顶级 Agent！

大家好，我是二哥呀。用 Agent 开发的小伙伴应该有个共同的感受，模型选择是个大问题。 Codex 默认跑的是 GPT-5.5，能力没问题，费用相对也合理。但国内很多小伙伴还是用不上，所以我就在想。想找一个模型，同…...

2026/6/4 19:48:58 阅读更多 →

AI生图没法改？100元就能人工转可编辑矢量图

为了赶论文返修截止日期，对着PS和AI啃了三天教程，画出来的实验示意图还是歪歪扭扭；好不容易做完技术路线图，导师说风格和期刊要求不统一，要全部重改；想试试AI文生图，对着空白框半天憋不出一个合…...

2026/6/4 19:46:57 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/3 17:02:45 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/3 11:01:44 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/3 17:02:49 阅读更多 →