这项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合完成的研究以预印本形式于2026年5月发布在arXiv平台论文编号为arXiv:2605.12501v1。感兴趣的读者可通过该编号在arXiv上找到完整论文。**鼠标不只会点击——AI助手的操作盲区**每当你打开电脑几乎所有与屏幕的交互都不只是点击按钮那么简单。你在Excel里拖动单元格角落来填充公式在Word里框选一段文字然后拖到新位置在Photoshop里用套索工具一笔一划地描出人物轮廓在PowerPoint里把一个形状拖到另一个形状的正中心——这些操作稀松平常却对自动化AI助手构成了真正的难题。近年来像GPT-o3和Claude这样的电脑操控AI已经能够帮助用户自动完成一些屏幕上的工作。这类AI被称为计算机使用智能体它们通过看屏幕截图来理解当前状态然后决定下一步该做什么。然而研究团队在实际测试中发现了一个让人有些尴尬的现象哪怕是当今最强大的AI模型在面对拖拽、框选、描边这类稍微复杂一点的操作时失误率远远高于简单点击。换句话说这些AI就像一个刚学会按门铃的机器人却完全不知道怎么开锁。研究团队把这个现象称为长尾问题——绝大多数的操作失败都集中在那些复杂度高、出现频率相对较低的交互类型上。他们的核心判断是这个问题很大程度上源于训练数据的严重匮乏。简单点击的数据到处都是但在Photoshop里描出一只猫的轮廓这种操作几乎没有现成的训练数据可以用。**一次摸底测试GPT-o3在工作场景中的真实表现**为了摸清问题所在研究团队在微软Azure平台上收集了近200个真实任务涵盖办公软件操作、网页浏览和电子游戏三大场景让GPT-o3逐一完成并详细分析所有失败案例。结果相当直观。在办公软件场景里每100个失败案例中有37个是因为AI找错了位置——也就是说它知道该做什么却不知道该在屏幕的哪个地方做。这类错误被称为动作定位错误是最主要的失败原因远超过规划错误知道在哪里但不知道该做什么。而在那些需要拖拽或其他复合动作的任务里坐标定位错误的比例更是显著高于简单点击任务。网页浏览场景的情况稍好一些但规律类似。游戏场景中规划错误占主导因为游戏需要更多策略性判断而非精准定位。这份测试报告直接指向了两个亟待解决的问题现有的评测基准无法衡量复杂操作能力而训练数据里几乎没有这类复杂操作的样本。**一把新尺子CUActSpot评测基准的诞生**既然旧的尺子量不准就得造一把新尺子。研究团队手工构建了一个名为CUActSpot的评测基准专门用来测试AI在复杂交互上的能力。这个评测基准的核心创新在于它打破了过去只测点击的传统。以往的评测基准不管多难基本上都是同一个模式给AI看一张截图让它找出某个按钮的位置然后检查它指出的位置是否在按钮范围内。这就像只考语文的找错别字而完全不考写作文。CUActSpot把测试范围扩展到了五种不同的操作对象标准界面元素按钮、复选框之类、文本内容选中某段话、在某处点击设置光标、表格Excel里的各种操作、画布PowerPoint里的图形操作以及自然图像Photoshop里对照片内容进行操作。动作类型也从单纯的点击扩展到了拖拽需要确定起点和终点两个坐标和绘制需要确定一系列连续坐标点比如描出物体轮廓。整个基准包含206个精心设计的样本涵盖12种高层任务类型和33种细分任务类型。为了确保质量每个样本都经过了至少四个人的测试和修正——原始标注者设计任务另外三个人独立尝试完成若有歧义就修改人类无法完成的就直接删除。评分方式也经过了精心设计。对于需要多个坐标点的任务评测系统会区分有序和无序两种情况——拖拽鼠标画圆是有序的必须从圆心开始而框选一段文字是无序的从前往后或从后往前都可以。此外系统还引入了禁止区域的概念防止AI通过在全屏随机乱点来蒙对答案。**数据工厂用代码渲染出训练数据**有了评测标准下一步是解决训练数据匮乏的问题。研究团队提出了一套全新的数据合成流水线其核心思路是与其从现实世界的软件截图里艰难地标注数据不如直接用程序生成带有精确坐标信息的截图。这个思路可以用烘焙来理解。传统方法就像从街上买蛋糕然后分析成分费力而不精确新方法则是自己按照食谱烤蛋糕从一开始就知道每一种材料的精确用量。由于截图本身就是用代码渲染出来的每个元素的坐标信息自然而然就记录在案完全不需要人工标注。在此基础上研究团队让高级AI模型具体使用的是OpenAI的o3模型扮演任务设计师的角色根据这些坐标信息自动生成对应的操作指令。更巧妙的是他们允许o3在生成任务时进行数学推算。举一个论文中的真实例子屏幕上有一个箭头形状和一个椭圆形状已知箭头圆心坐标、箭头尖端坐标、椭圆顶部坐标o3就能推算出把箭头的圆心拖到某处使箭头尖端恰好指向椭圆顶部这样的复杂任务并自动计算出正确的起点和终点坐标。这种能力极大地丰富了生成任务的多样性。五种操作对象各自有一套专属的渲染方案。界面元素数据复用了Phi-Ground项目的网页爬取流水线从Common Crawl这个巨大的网页存档库中抓取网页经过语言过滤、领域去重同一网站最多保留50个页面防止单一网站风格主导模型、渲染截图、规则过滤等多个清洗步骤最终用GPT-4o为每个元素生成描述标签共获得约1050万个高质量样本。文本数据的渲染则采用了一个拼贴方案团队收集了2500种开源英文字体和约200张不同分辨率的文字背景图包括空白Word文档、记事本窗口截图等然后用Python的PyQt5库把维基百科和GitHub上的文字内容渲染到这些背景上同时精确记录每个字符的坐标。表格数据的生成尤为精细分四步完成。首先从开源数据集收集约1.6万张原始表格然后用GPT对每张表格进行演化——改变主题比如把工作时间统计表改成数学成绩统计表、改变结构添加合并单元格、新增列等生成约16万张各不相同的表格。接着用o3生成约1万套不同风格的CSS样式表通过随机调整颜色、字体、边框等参数扩展成多样化的视觉风格。最后把内容和样式随机组合并对一半的表格随机遮挡大量单元格模拟Excel中大量空白格的真实情况得到视觉风格高度多样的表格截图。画布数据采用了一个程序化的PowerPoint模拟器支持76种基本形状涵盖矩形、椭圆、三角形、箭头、连接线、标注框、星形、多边形等九大类别。每个生成的画面都包含3到8个随机放置的形状并模拟了PowerPoint编辑模式下的视觉细节——八个红色控制点、顶角的蓝色顶点标记、旋转手柄等让合成数据尽可能贴近真实软件的外观。自然图像数据则直接来源于Meta开源的SAMSegment Anything数据集。对于每张图片团队随机选取五个区域用GPT-4o为每个区域生成详细描述再用轮廓提取算法把区域的分割掩码转换成20个顶点的多边形边界曲线。这套边界数据主要用于支持Photoshop式的抠图和涂抹遮罩任务。通过这套流水线研究团队共生成了约5000万条训练样本其中界面元素数据约3000万条其余四种模态各约500万条。**训练与对比一个4B参数的小模型逆袭**有了数据研究团队用它来训练模型。他们选择了Phi-3.5-VL作为基础模型这是微软开发的一个参数规模约40亿的视觉语言模型。选择这个相对小的模型是因为他们想测试纯数据质量和多样性的效果而不是单纯靠模型规模取胜。训练出来的模型被命名为Phi-Ground-Any-4B在CUActSpot评测基准上取得了44.4%的总体得分超过了所有参数量低于320亿的开源模型。对比一下其他模型的表现拥有70亿参数的UI-TARS-1.5-7B得了28.5%拥有320亿参数的EvoCUA-32B同样得了28.5%参数量相当的OpenCUA-7B得了39.8%而同为320亿参数的OpenCUA-32B得了52.5%。考虑到Phi-Ground-Any-4B只有40亿参数这个成绩相当出色。当然如果只看另外两个主流评测基准——ScreenSpot-Pro和UI-VisionPhi-Ground-Any-4B的表现就相对平庸了分别只得了26.3%和15.8%远低于一些竞争对手。这个反差引出了一个值得深思的问题。**评测基准的知识壁垒之争**研究团队在论文中专门花了相当篇幅讨论这个反差背后的深层原因这也是整篇论文最有意思的观察之一。ScreenSpot-Pro和UI-Vision这两个当前最流行的评测基准都覆盖了大量真实桌面软件包括Photoshop、AutoCAD、各类专业应用等。这些基准的一个重要特点是很多任务本身就需要软件专业知识才能完成。以论文中举的例子为例点击Photoshop中的减淡工具图标——如果你从来没用过Photoshop根本不知道减淡工具长什么样即便图标就在眼前也很难认出来。这对人类用户也是一样的。这种设计有其合理之处真实的AI助手确实需要熟悉各种软件。但问题在于这样的评测结果很难分清楚一个模型得分高究竟是因为它的定位能力强还仅仅是因为它恰好在训练数据里见过这款软件的界面截图。一个专门用ScreenSpot-Pro相关数据训练的模型会在这个基准上得高分但这不代表它真的学会了如何准确定位屏幕上的任意目标。研究团队用了一个直接的实验来验证这一点。他们把Phi-Ground-Any-4B在Phi-Ground项目的应用数据通过必应搜索收集的常见软件截图可能与两个基准有重叠上进一步微调结果在ScreenSpot-Pro上的得分从26.3%跳升到41.5%在UI-Vision上从15.8%跳升到29.7%双双大幅提升。但与此同时在CUActSpot上的得分却从44.4%下降到了36.5%。训练特定软件的数据确实能让模型在依赖软件知识的基准上表现更好但这种提升并不代表通用定位能力的真正进步。为了进一步验证评测基准的有效性研究团队还做了一个很有说服力的实验。他们用GPT-o3统一充当规划者决定下一步该做什么然后让不同的模型充当执行者把规划转化为具体坐标在OSWorld这个端到端的真实任务基准上测试。结果发现有几个模型在ScreenSpot-Pro上的得分比GPT-o3高出近30个百分点但在OSWorld上的得分却并不比GPT-o3高多少。而Phi-Ground-Any-4B在ScreenSpot-Pro上只有26.3%在OSWorld上却能达到42.4%接近GPT-o3自己执行时的44.1%。这说明CUActSpot的排名结果与真实任务完成能力的相关性更高。**多样性的魔法为什么见多识广比深入专精更重要**论文中另一个重要发现来自对训练数据构成的系统性消融实验。研究团队从零开始每次只增加一种模态的训练数据观察模型在各项测试上的表现变化。这个实验揭示了一个反直觉但又很有说服力的规律单独扩大某一种数据的规模带来的收益迅速递减但每次引入一种新模态的数据不仅该模态的测试分数大幅提升其他模态的分数也会跟着涨。具体来看从零到200万条界面元素数据总体得分从0跳到14.8%。加入100万条文本数据后总体得分升到21.5%而且不只是文本子项提升界面元素子项也从31.6%升到了34.2%。加入100万条表格数据后表格子项从21.9%大幅升到了40.6%同时画布和图像子项也有小幅提升。加入画布和自然图像数据后各子项持续稳步提升。相比之下如果只是把某一种数据从200万条增加到500万条带来的提升远远没有引入新模态来得显著甚至会遇到平台期。研究团队把这个现象命名为多样性缩放并提出了一个解释要想同时处理好文本选择、表格操作、画布拖拽、图像区域定位这些看似不同的任务模型必须学习一些底层的、跨任务通用的能力——比如理解目标在哪里、这个目标的边界是什么、从这里拖到哪里才合理。这些通用能力只有在见过足够多样化的任务之后才能真正形成单纯在一类任务上堆数据反而会让模型过度专精于某种特定的模式识别。这个发现在某种程度上呼应了大型语言模型的一个经典观察语言模型在语言任务上展现出的涌现能力往往来自于训练数据在话题、风格、语言方面的极高多样性而不仅仅是数据量。**跨任务泛化学会了1加2也学会了2加1**除了多样性缩放研究团队还发现了一个有趣的举一反三现象。他们统计了Phi-Ground-Any-4B在CUActSpot上能成功完成的细分任务类型数量CUActSpot包含33种细分任务训练数据只覆盖了其中20种但模型实际上能成功完成其中27种。也就是说有7种训练数据里完全没有的细分任务模型通过组合已有知识自己摸索出了完成方法。论文中给出的解释是模型分别学会了操作文字内容和操作图像区域这两种能力然后在面对操作图像里的文字比如选中PPT幻灯片图片里的文字这种新任务时能够把两种能力融合起来在没有专门训练数据的情况下完成任务。这种跨任务的泛化能力让研究者对未来充满期待随着训练数据的模态和任务类型持续扩展AI助手在没有见过的新型操作上的表现很可能也会跟着提升而不是永远只会做训练时见过的那几件事。**说到底这项研究在做什么**归根结底这篇论文做了三件相互关联的事。第一它指出了一个被长期忽视的问题现有的AI操控能力评测基本上只测点击完全忽略了拖拽、绘制这类在实际工作中极为常见的操作。评测基准的设计偏差导致整个领域的研究方向也跟着偏了。第二它提供了一套工具CUActSpot评测基准让研究者能更准确地测量模型在复杂操作上的真实能力以及一套数据合成流水线让这类稀缺的复杂操作训练数据能够以大规模的方式自动生成。第三它给出了一个方向性的结论对于电脑操控AI来说训练数据的多样性可能比数据规模更重要。想要训练出能真正帮助用户完成日常工作的AI助手与其在同一类操作上堆积海量数据不如系统地扩展它所见过的操作类型。当然这项研究也有它坦承的局限。CUActSpot只有206个样本是一个诊断性的小型基准并不能覆盖真实工作流中的所有复杂情况尤其是需要连续多步操作的长序列任务。合成数据与真实软件截图之间的分布差异也是一个尚未完全解决的问题——从实验结果就能看出在合成数据上训练好的模型还需要额外的真实数据微调才能在软件知识密集的基准上表现出色。不过从另一个角度来看能在40亿参数规模上通过纯合成数据达到这样的性能本身已经说明了这条路线的可行性。随着合成数据质量和多样性的持续提升以及模型架构的进一步优化一个真正能帮你在Photoshop里描轮廓、在Excel里拖公式的AI助手可能不再是遥远的未来。有兴趣深入了解的读者可以通过arXiv编号2605.12501查阅完整论文研究团队也在GitHubmicrosoft/Phi-Ground上开放了基准数据、训练数据、代码和模型权重可以直接下载使用。---QAQ1CUActSpot评测基准和ScreenSpot-Pro这类主流评测基准有什么本质区别AScreenSpot-Pro等主流基准基本上只测试点击操作目标以标准界面元素为主而且很多题目需要软件专业知识才能作答导致分数很难区分定位能力和软件记忆。CUActSpot则专门扩展了拖拽和绘制等复合动作覆盖文本、表格、画布、自然图像五种操作对象并刻意减少了对软件专业知识的依赖让评测结果更能反映模型的通用定位能力。实验证明CUActSpot的排名与真实任务完成率的相关性更高。Q2Phi-Ground-Any-4B的训练数据是怎么生成的为什么不直接用真实截图A研究团队采用了代码渲染的方式生成截图因为渲染过程中每个元素的坐标天然就是已知的完全不需要人工标注。五种模态分别用网页渲染、字体渲染、HTML表格渲染、程序化画布模拟器和SAM分割数据集实现。相比从真实软件截图里艰难标注这种方式能以极低成本生成数千万条带有精确坐标的训练样本并且通过让o3模型进行数学推算来自动生成复杂操作指令。Q3多样性缩放这个发现对AI训练有什么实际意义A这个发现说明对于电脑操控AI来说与其在同一类操作比如只点击界面按钮上堆积大量数据不如系统地引入更多种类的操作类型。实验显示每引入一种新模态数据不仅该模态的性能大幅提升其他模态也会跟着受益。这与堆同类数据很快遇到收益递减形成鲜明对比。实践层面的意义是构建通用操控AI助手时应该优先追求操作类型的广度而不仅仅是某一类操作的数据量。