AI密室逃脱:16款顶级AI上演真实逃生,谁是最后赢家?
密室逃脱一个考验观察、推理的极限游戏。但如果玩家不再是人类而是一群最顶尖的AI呢这次AGI-Eval评测社区联合复旦大学在刚发布的论文《AgentEscapeBench》里发起了一项极限实验将16个热门的AI大模型包括GPT、Claude、Gemini等以“玩家”的身份扔进270个精心设计的密室里。这个“密室”并非某个特定的业务场景而是一个对所有AI都相对陌生的环境。其目的只有一个剥离模型对特定套路的拟合通过这种无法依赖先验知识和固定模式的环境去真实地评估Agent的长程推理、逻辑规划与执行能力。看看谁会成为真正的“密室逃脱大师”△图1AgentEscapeBench 概念图论文链接https://arxiv.org/abs/2605.07926GitHub:github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench01怎么让AI“玩”密室逃脱为了让AI能真正地“沉浸式”解谜我们为它们量身定制了一套名为AgentEscapeBench的评测框架。简单来说我们把AI当成一个真实的“玩家”扔进密室。整个游戏过程就像一场多轮对话。首先我们会给AI一本“游戏规则手册”System Prompt告诉它能做什么、怎么做。然后AI会收到密室的初始环境描述。接下来考验就开始了。AI需要在一个统一的上下文中像一个真正的玩家一样同时处理三种核心动作观察 (Observation)探索环境发现线索。执行 (Execution)调用工具与设备交互。规划 (Planning)连接线索制定多步计划。值得一提的是这个评测框架没有为AI设计额外的记忆系统。AI的“记忆”完全依赖于其自身的上下文理解能力这能更真实地反映其长程记忆和状态追踪的短板。每一轮AI做出决策环境给出反馈。最终要么成功逃脱要么行动次数耗尽挑战失败。有了这个系统我们就可以开始观察每个AI玩家在密室中的真实表现了。02密室是如何被创造的每一个密室谜题都源自于一条精密的六阶段自动化流水线。△图2六阶段自动化密室生成流水线简单来说这条流水线会从一个包含32种真实工具的模板库中自动生成一个具有特定逻辑难度的有向无环图DAG骨架。然后LM给DAG的源头节点生成初始参数然后按照拓扑顺序执行每个节点的计算逻辑逐步得到整个DAG每个节点的输入值、输出值最后使用LLM生成风格各异的“剧本”如赛博朋克、侦探悬疑等。这套流程确保了每一个密室都是全新的、逻辑自洽且难度可控的。此外所有题目均经过人类玩家测试保证了其可解性。有了这个系统我们就可以开始观察每个AI玩家在密室中的真实表现了。03谁是真正的“密室逃脱大师”在270场难度从5级到25级不等的“密室逃脱”中16位AI玩家展现出了截然不同的游戏风格和能力上限。首先我们来看总成绩单。表1清晰地显示随着密室复杂度DAG节点数的增加所有AI玩家的成功率都开始下降。但仔细看每个模型的“OUT”和“玩法”都大有文章。△表1AI玩家与人类在不同难度下的密室逃脱成功率SR %对比接下来是我们为每个AI玩家撰写的“玩家档案”看看谁才是真正的密逃大师Claude-Opus-4.6“沉着稳健”的逻辑大师Claude在此次挑战中最像一个心态沉稳的“老手”。它的策略不是追求单步的炫酷操作而是展现出一种步步为营的扎实感。它在密室中很少做无效尝试每一步都严格遵循已发现的线索。这让它的成功率曲线最为平滑即便在最难的25级密室中依然保持了60%的通关率展现出强大的逻辑纪律性。GPT-5.4“思路广阔”但执行低效的探索家GPT-5.4则像一个思路天马行空的探索家。它总能想到各种可能性但在有明确逻辑依赖的密室中这反而导致了大量的冗余操作。如表2显示在难度20级的密室里它平均要尝试213.6次工具调用才能找到出路几乎是Claude的2倍。它的问题不是“想不到”而是“想太多”导致解谜效率低下这一点在图4中表现得尤为直观。△表2不同难度级别下每个实例的平均工具调用次数图3难度10下的工具调用次数与成功率关系图。这张图清晰地展示了效率与成功的关系相较于左上区域的人类和ClaudeGPT-5.4的点位明显偏右说明它通关一次走的弯路比别人多得多。Gemini-3.1-Pro-Preview心态不稳的“极限选手”Gemini的表现极具戏剧性。它在中等难度的密室中表现惊艳展现出强大的推理爆发力。但一旦进入25级的极限压力测试它的表现就会断崖式下跌成功率骤降至13.3%。这表明它的推理核心在长程、高压环境下存在拐点一旦超过某个阈值逻辑链条便会瞬间断裂。Kimi-K2.5“高开低走”的潜力选手Kimi在此次挑战中像一个极具潜力但后劲不足的“潜力选手”。表1数据显示它在5级的密室中取得了95.0%的教高成功率。这证明了它在处理短程、清晰的逻辑链时拥有非常出色的能力。然而随着难度提升至20级其成功率骤降至31.7%衰减幅度较大说明其在长程记忆和状态追踪方面还有待提升。△表1AI玩家与人类在不同难度下的密室逃脱成功率SR %对比04为什么AI在密室里会“迷路” 不同AI玩家的“出局”方式各异但数据揭示了几个惊人的一致性规律。这些“关键发现”共同指向了AI Agent的根本瓶颈。图4关键行为指标随难度变化的趋势。这张图清晰地显示随着密室变复杂所有AI玩家的“过早调用率”b图代表规划混乱都在上升而“线索遵循率”c图代表工作记忆失效都在下降。这证明了AI Agent的“工作记忆”和“逻辑一致性”正在随任务链条的变长而系统性衰退。我们将每个模型的评测框架代码、数据构造代码和题目数据集都进行了开源。感兴趣的开发者欢迎查看项目链接了解更多技术细节GitHub:github.com/AGI-Eval-Official/Repo-of-AgentEscapeBench几个有趣的结论1. 性能分化随难度急剧放大在简单题目Diff-5上大部分前沿模型都能达到85%的成功率差距不大。但随着依赖链加深差异呈爆炸式增长到Diff-25时Claude-Opus-4.660.0%与Gemini-3.1-Pro-Preview13.3%之间已是天壤之别。2. Claude-Opus-4.6展现最优雅的性能衰减从Diff-5到Diff-25仅下降30个百分点是所有模型中衰减最小的。这意味着它在长链推理中保持一致性的能力远超其他模型。3. GPT-5.4在简单任务上最强但扩展性不足Diff-5拿下96.7%的最高分但到Diff-25已经降到43.3%下降53.4点。短跑冠军马拉松不行。4. 推理模型的悖论DeepSeek-Reasoner以推理增强闻名在所有难度级别上都不如 DeepSeek-Chat。这揭示了一个深刻的发现Agent场景中的瓶颈不是单步推理的深度而是在真实工具交互中动态更新信念、追踪状态的能力。5.链式推理是核心瓶颈以MiniMax-M2在Diff-20为例端到端成功率仅5.0%但子问题解决率达43%隐藏节点发现率达56.2%。模型能解决局部问题但无法将中间结果正确串联起来完成整条链路。05总结与讨论总而言之这篇论文用一场“密室逃脱”把大家从AI的“滤镜”里拽了出来。它告诉我们一个Agent能不能真正帮你解决问题不取决于它在熟悉场景下有多丝滑而在于把它扔到一个全新的烂摊子里它还能不能理清头绪。这才是AI Agent从“酷炫的demo”到“能干活的帮手”之间那道最深的鸿沟。如果你是 Agent 开发者或研究者建议将这套诊断框架转给你的技术团队可以很好的帮助检测Agent的能力短板。如果你是产品经理或爱好者它清晰地展示了当前技术的边界有助于你更理性地选择产品路线和设定预期。#互动环节你认为当前Agent最大的瓶颈是什么在你的使用场景中是否也遇到了“串起来就翻车”的问题欢迎在评论区分享你的看法或将文章转发给对Agent技术感兴趣的同事一起探讨如何构建更智能的Agent【关注 AGI-Eval 】关注➕点赞➕评论 随机掉落5个AGI-Eval社区精美礼品END