浙江大学团队揭秘:AI真的“看懂“3D空间了吗？还是只会纸上谈兵？

张

张建站

2026/5/1 0:44:44

10分钟阅读

这项由浙江大学联合蚂蚁集团、西湖大学、浙江工业大学开展的研究发表于2026年4月论文编号为arXiv:2604.20570有兴趣深入了解的读者可通过该编号查阅完整论文。---一扇门转动了90度之后它相对于墙壁的位置会怎么变化桌上的杯子往左移动20厘米它和旁边的盘子还挨着吗这些问题对人类来说几乎是直觉反应但对现在最先进的AI来说却可能是一道难倒它们的题目。这正是浙江大学研究团队试图探究的核心问题。他们想知道那些每天被我们用来聊天、看图、甚至生成图片的大型AI模型到底在多大程度上真正理解了三维空间当它们被要求把桌上那个花瓶向右移动15厘米并生成对应图片时能做到吗答案说出来可能让人有点沮丧——大部分现有AI模型在这件事上表现得相当糟糕。但研究团队不仅发现了问题所在还找到了一条改进的路径而且这条路径带来的收获远比预期要多得多。---一、我们为什么要让AI动手改图而不只是看图答题在这项研究出现之前学术界衡量AI空间理解能力的方式基本上是出一堆选择题或填空题。比如给AI看一张照片问它桌子左边是什么物体或者房间里最近的椅子距离镜头大约多少米。这种方式就像考试时只出判断题和选择题学生死记硬背也能过但你根本不知道他是否真的理解了。浙江大学的研究团队意识到这个问题于是提出了一个截然不同的思路与其问AI你看到了什么不如要求它按照指令改变图像。具体来说就是给AI一张图片和一条指令比如把最右边那个花瓶顺时针旋转45度然后让AI生成一张执行了这个操作之后的新图片。这就像是把一个学生从背课文的考试模式切换到动手做实验的模式。你可以在不理解任何物理知识的情况下背出物体旋转会改变朝向但要真正让一个烧杯里的液体按规律反应你必须真的懂化学。研究团队把这种通过生成图像来体现空间理解的能力命名为**生成式空间智能**Generative Spatial Intelligence简称GSI。简单说就是AI不仅能说出空间关系还能在图像中正确地执行空间操作。为了系统地测量这种能力他们构建了一个全新的评测平台叫做**GSI-Bench**。这是世界上第一个专门用来衡量AI生成式空间智能的基准测试包含两个互补的组成部分一个来自真实世界照片的数据集另一个来自计算机模拟环境的合成数据集。---二、空间操作的七种考题从移动杯子到改变视角在详细介绍这两个数据集之前有必要说清楚研究团队定义了哪些空间操作。毕竟空间智能这个词听起来很宽泛需要拆解成具体的任务才能测试。研究团队一共定义了七类空间操作覆盖了人类日常理解三维世界时最核心的几种能力。第一类叫做**相机相对移动**指的是按照摄像机视角移动物体比如把那个垃圾桶向左移动20厘米。这考察的是AI能否理解左和右是相对于观察者视角而言的而不是一个绝对方向。第二类叫做**物体相对放置**比如把苹果放到碗的左边。这需要AI理解两个物体之间的相对位置关系而不只是知道某个物体在哪里。第三类是**物体旋转**比如把那只毛绒玩具向左转45度。旋转角度必须准确否则空间关系就错了。第四类是**容器放置**比如把球放进箱子里涉及更复杂的层次关系——一个物体在另一个物体内部。第五类是**视角控制**比如向上看30度。这不是在移动任何物体而是改变观察者的视点相当于让AI重新渲染一个不同角度的场景。第六类是**空间移除**比如移除场景中最左边的椅子保持其他物体不变。这考察AI能否精准识别并移除目标物体同时不破坏背景。第七类是**物体缩放**比如把那束花缩小25%。AI需要在保持物体外观的前提下正确调整其在画面中的比例和大小。这七类操作从不同维度检验AI对三维世界的理解。有的简单有的复杂有的只涉及单个物体有的涉及物体之间或物体与观察者之间的关系。把这些综合起来才能得到一个全面的能力画像。在技术层面研究团队用数学方式精确定义了每种操作——每个场景被描述为一组物体加上一台摄像机每个物体有自己在三维空间中的位置、大小和朝向每条指令被转化为对这些参数的精确变换。这样一来把苹果向左移15厘米就不再是模糊的语言而是一个可以精确计算和验证的三维几何变换。---三、两套考卷真实世界的挑战与模拟环境的精准GSI-Bench由两部分组成各有侧重互为补充就像一场考试既有开卷的实践题也有严格控制变量的标准化测试。**GSI-Real来自真实房间的441道难题**GSI-Real的原始素材来自ScanNet这是一个包含大量真实室内场景的三维重建数据集里面有客厅、卧室、厨房等各种真实环境的照片。研究团队从中挑选了441个样本覆盖了211个不同的室内场景。构建这个真实数据集面临一个根本性难题在真实照片中你没法直接执行空间操作然后拍下结果。你不可能真的把拍摄现场的花瓶移动15厘米再从完全相同的角度重拍一张照片。研究团队的解决方案相当巧妙。他们借助DetAny3D这个工具从真实照片中重建出三维场景结构——提取出每个物体的三维位置、大小、朝向以及摄像机参数。然后对这些三维数据应用规则生成空间操作并通过可视化验证操作的合理性。具体来说对于每个候选操作他们会把变换前和变换后的三维边框都投影到图像平面上生成前后对比图再用一个大型多模态AI来审核这些操作是否物理上可行——比如移动后的物体会不会和其他物体碰撞会不会超出画面范围等等。AI还负责把模板化的描述改写成更自然的语言指令。最后经过人工审核研究团队剔除了剩余的标注错误和模糊指令确保每一道题都清晰、合理、有意义。由于GSI-Real没有标准答案图片因为真实操作无法执行评测时采用的是分析AI生成图片与指定三维变换之间一致性的方法而不是与某张参考图对比。**GSI-Syn来自模拟世界的大规模精准数据**GSI-Syn则完全不同。它建立在AI2-THOR和MesaTask这两个开源三维模拟器之上包含两个子集GSI-Syn-Room593个样本六种操作模拟室内导航场景和GSI-Syn-Tabletop600个样本三种操作模拟桌面操作场景。此外还有GSI-Syn-Bathroom包含200个样本专门用于测试跨视角泛化能力。在模拟器里研究团队可以精确控制每一个参数。他们首先在场景地图上用聚类算法找出各个独立的房间区域然后在每个区域内采样尽量分散的观察视点优先选择包含更多可操作物体的视点。对每个视点系统随机选择目标物体进行三维几何验证确保物体没有被遮挡、移动后不会掉出支撑面、放置时不会与其他物体碰撞然后生成对应的文字指令。接着模拟器实际执行这个操作——先计算理想目标状态再让物理引擎执行动作检查实际结果是否与理想目标一致。不成功的操作会被回滚重新抽样。最后通过实例分割掩码过滤掉视觉变化微弱的样本再用Qwen3-VL-235B这个大模型来发现模拟瑕疵、物理异常或严重遮挡。这个流程的好处是显而易见的每一对图像操作前和操作后都有完美精确的三维标注不存在任何歧义而且可以无限扩展生成新数据。用于训练的GSI-Syn-Train包含了10500个样本涵盖多种操作类型和多种场景且与测试集严格分离。---四、四把尺子怎么判断AI改的图合不合格有了数据集还需要一套评测标准。研究团队设计了四个互补的评估维度像是从四个不同角度给AI生成的图片打分。第一个维度叫**指令合规性**判断AI改出的图片是否满足指令的基本语义要求。比如指令说向左移动AI生成的图片里那个物体确实在左边吗这是一个通过/不通过的二元判断允许有合理的误差范围不要求精确到毫米。第二个维度叫**空间精确度**只对通过了合规性检查的样本进行计算测量几何精度。比如指令说移动15厘米AI实际生成的位移是多少旋转角度的偏差有多大这些误差被汇总成一个综合的精确度分数分数越高代表越精准。第三个维度叫**编辑局部性**检查AI在修改目标物体的同时有没有误伤其他区域。比如只需要移走一个花瓶但AI顺手把旁边的书也动了或者把背景渲染得面目全非——这就是局部性差的表现。评测方法是用目标物体的三维边框作为遮罩计算遮罩外区域在修改前后的视觉相似度。分数越高说明非目标区域保持得越完整。第四个维度叫**外观一致性**由Qwen3-VL-235B这个大模型担任视觉检察官检查被操作的物体在移动/旋转/缩放之后外观是否保持一致——颜色、纹理、类别有没有变化如果是移除操作就检查被移除位置的背景修补得自不自然有没有残留痕迹或明显拼接感。在正式计算指令合规性和空间精确度之前系统还会先过一道局部性门槛——如果AI生成的图片与原图几乎毫无差别说明AI根本没有执行操作或者差别过于剧烈说明AI把整张图都改了就会直接排除不计入成绩。合成数据的门槛比真实数据更严格因为模拟环境下的操作效果理应更精确可控。---五、九位选手同台竞技结果如何研究团队选了九个当前最先进的AI模型来参加这场空间智能大考包括七个开源模型BAGEL、Anyedit、Uniworld、Ultra、Qwen-Image-Edit、Omnigen2、Emu3.5和两个商业闭源模型NanoBanana和GPT-image。总体来看成绩不太好看。在GSI-Syn-Tabletop这个桌面操作子集上商业闭源模型NanoBanana平均得分37.03GPT-image是33.97——在这些选手里算是最高的但绝对值也相当有限。更有意思的是两个商业模型在GSI-Real真实场景上的表现33.52和34.70居然只跟开源模型Qwen43.44和Emu3.543.52差不多甚至还略逊一筹。这说明商业模型虽然生成图片的整体质量很高但在需要精确三维几何理解的空间操作上并没有明显优势。在开源模型里Emu3.5表现最强在GSI-Real上平均达到43.52各个维度都相对均衡。研究团队分析认为这可能得益于Emu3.5在视频数据上的训练——视频天然包含时序帧之间的视角和空间变化间接积累了一些三维空间的先验知识。相比之下Uniworld、Ultra和Omnigen2等通用模型表现差距显著部分模型的指令合规性或外观一致性分数极低说明它们很难理解和执行结构化的空间操作指令。从质性分析来看能执行的操作类型也有明显规律。几乎所有模型在移除物体这类操作上表现最好因为删掉某个东西然后修补背景对AI来说相对容易。但旋转、精确移动这类需要明确理解三维几何的操作大多数模型都力不从心。Emu3.5在移除操作上做得最干净背景修补最自然。AnyEdit则经常出现原封不动不执行或改了视觉属性但位置没变的问题。BAGEL有时候会把把物体向左移理解成摄像机向左平移产生完全不同的视觉效果。Qwen和Emu3.5在识别最左边的、最前面的这类参照性描述时比较可靠但偶尔也会多删一些不该删的内容说明细粒度的空间定位仍然是挑战。---六、用模拟数据练功真实场景也跟着受益光发现问题还不够研究团队还想看看能否通过训练来改进这种能力。他们选择了BAGEL作为基础模型用GSI-Syn-Train10500个合成训练样本对它进行微调然后分别在合成测试集和真实数据集上评测改进效果。结果相当令人振奋。在GSI-Syn-Tabletop上微调后的模型平均得分从26.59跃升到48.74提升了22.15分——几乎翻倍。在GSI-Real真实场景上平均得分从28.46提升到36.28提升了7.83分。其中编辑局部性提升最多9.22分外观一致性和指令合规性也分别提升了8.25和8.16分说明模型不仅学会了更精准地执行操作还学会了更好地保护非目标区域并维持物体外观。从合成数据到真实场景的迁移能力尤其值得关注——毕竟训练数据全部来自模拟器测试用的真实照片里的光照、纹理、视角变化都和模拟环境大相径庭。但提升确实发生了说明从模拟环境中学到的几何推理能力是可以泛化到真实世界的。在GSI-Syn-Room室内场景子集上提升幅度7.05分比Tabletop更小研究团队认为原因在于室内场景比桌面场景复杂得多——更多物体、更复杂的遮挡关系、更大的空间范围——这些都加大了全局空间推理的难度也揭示了当前方法还有改进空间。---七、意外收获练习改图居然让AI更会看图这项研究最出人意料的发现出现在最后阶段。研究团队把微调后的模型拿去测试两个纯粹的空间理解基准——OmniSpatial和SAT-Real看看专注于生成任务的训练会不会顺带提升AI对空间的理解能力。请注意训练时完全没有给模型任何理解类的训练数据只有纯粹的图像编辑任务——输入一张图和一条指令输出一张改好的图。但结果是空间理解能力确实提升了。在OmniSpatial测试中BAGEL微调后的总体准确率从41.55%提升到42.07%。分项来看动态推理0.95%、空间交互2.00%和视角理解1.07%都有提升。唯一下降的是复杂逻辑推理-3.17%研究团队解释这是因为训练数据里完全没有逻辑推理相关的内容这部分能力没有得到强化可能因为资源分配而略有下降。在SAT-Real测试中整体准确率从65.33%提升到69.33%提升了4个百分点。其中目标定向GoalAim从75.00%提升到85.29%和自我中心运动EgoM从60.87%提升到73.91%的提升最为突出。这两类能力恰恰与生成任务中的视角理解和方向推理高度相关。这个发现在理论上是很重要的。长期以来AI领域的研究者倾向于认为理解和生成是两条相对独立的路——你用理解数据训练理解能力用生成数据训练生成能力。但这项研究表明对于空间智能来说生成式的训练可以作为一种练习媒介帮助模型内化三维空间的结构和规律进而改善对空间关系的感知和判断。打个比方一个从未动手组装过积木的孩子可能比一个经常搭积木的孩子更难想象积木在空间中的旋转效果。动手做的经验在某种程度上加深了空间直觉即便你问的问题和动手没有直接关系。AI似乎也有类似的机制。---归根结底浙江大学这支团队做了一件很有价值的事他们不满足于用问答题来衡量AI的空间智能而是设计了一套更贴近真实能力的动手题——要求AI不只是说出空间关系而是在图像中正确地执行空间变换。GSI-Bench的出现填补了这个评测空白让我们第一次有了系统衡量这种能力的工具。测试结果显示现有最先进的模型在这类任务上普遍表现一般商业大模型的优势也远不如在其他任务上那么显著。而通过在模拟数据上微调不仅可以提升生成式空间智能本身还能附带改善空间理解能力——这为未来研究提供了一个新思路生成和理解或许不是非此即彼的两条路而是可以相互促进的两种练习方式。这项研究对普通用户的意义可能要等到几年后才会真正显现——当你打开手机上的图像编辑工具对着一张家居照片说把那盏落地灯移到沙发右边一米然后AI真的准确无误地生成了你想要的效果而不是把灯变成一堆像素噪点。那时候你手边的工具里或许就有这项研究的一份贡献。若有兴趣深入了解技术细节可通过arXiv编号2604.20570查阅完整论文。---QAQ1GSI-Bench和现有的AI图像理解基准测试有什么不同AGSI-Bench专门测试AI能否通过生成图像来正确执行空间操作比如把桌上的杯子向左移动20厘米然后检查AI生成的新图片是否真的做到了。现有的大多数基准测试只考察AI回答空间相关问题的能力比如问桌子左边是什么物体但不要求AI真正改变图像。两者的区别类似于背诵交通规则和实际开车后者更能体现真实能力。Q2为什么用模拟环境的数据训练AI在真实照片上也能有效果A模拟环境的核心优势是可以生成精确标注的三维数据——每次空间操作的前后状态都有精确的几何记录。AI通过大量练习这些操作学到了三维空间变换的内在规律这些规律是普遍成立的不依赖于场景是真实拍摄还是计算机渲染。好比学游泳时在标准泳池里练习的技巧到了海里同样适用因为水的物理性质是一样的。Q3为什么改图训练能顺带提升AI看图的空间理解能力A研究团队认为生成式的空间训练迫使AI在内部建立更精确的三维空间表征。要正确地把物体向右移动15厘米并生成图像AI必须真正理解物体在三维空间中的位置和运动方式而不能只靠表面的视觉模式匹配。这种内化的空间理解反过来也帮助AI在纯理解任务中表现更好就像经常动手画地图的人往往也更善于在脑海中想象方向和距离。