VTAM视觉-触觉动作模型通过将高分辨率触觉数据如GelSight传感器数据深度整合到其预测性世界建模框架中显著提升了机器人在薯片抓取、黄瓜剥离等富接触任务中的动作预测能力和执行稳健性。其核心机制在于将触觉感知从传统的“辅助输入”提升为与视觉平等的“基础模态”并进行联合动力学预测与正则化训练。一、 核心架构多模态预测性世界模型VTAM并非简单地将触觉特征与视觉特征在后期决策层拼接而是构建了一个端到端的视觉-触觉世界动作模型。其架构主要包含两个关键部分多视角视觉-触觉隐世界建模模型基于预训练的视频变分自编码器VAE将多视角RGB图像和高分辨率的GelSight触觉图像共同编码到一个共享的连续隐空间中。在这个空间里模型采用扩散过程对视觉场景的动态变化和触觉传感器捕捉的细粒度物理变形如剪切、滑动、压力分布进行联合建模。条件扩散动作生成学习到的联合视觉-触觉表征通过交叉注意力机制注入到一个基于条件扩散模型的动作生成头中用于预测时间一致且物理合理的机器人控制指令如末端执行器位姿、夹爪宽度。这种设计使得模型能够预测未来时刻的视觉和触觉流的联合演化而不仅仅是根据当前状态做出反应。这为机器人提供了预测接触动力学如物体是否即将滑动或碎裂的能力从而提前调整动作。二、 触觉数据的关键作用与处理方式高分辨率触觉数据如来自GelSight在VTAM中扮演着不可替代的角色具体体现在以下几个方面作用维度具体说明对应技术实现提供视觉盲区信息在抓取、精密装配等任务中手部或工具会对目标物体形成视觉遮挡。触觉数据直接感知接触界面的力与变形弥补了视觉信息的缺失。模型将触觉流z_t^tactile作为独立的输入模态与视觉流z_t^vision一同输入到多视角注意力模块中进行融合。编码高频物理细节GelSight等传感器能捕捉物体表面的微观纹理、剪切力方向和法向压力的空间分布这些是判断接触稳定性、物体材质和滑移趋势的关键。利用预训练视频VAE的重构导向目标其天然倾向于保留细粒度的空间和运动模式使得模型无需专门设计触觉编码器也能有效编码这些高频细节。实现时间动力学推理连续帧的触觉数据构成了“触觉视频”模型能从中学习力分布的时空演化规律例如压力如何随抓握加深而扩散或剪切力如何在滑动初期积累。模型通过交替的视角内自注意力和视角间自注意力块同时捕捉单个触觉帧内的空间结构以及跨帧的时间依赖关系从而对接触演化进行预测性推理。三、 提升动作预测能力的关键技术虚拟力正则化在训练多模态模型时一个常见的问题是模态坍缩由于视觉信息通常更丰富、更容易学习模型梯度会过度流向视觉通路导致触觉信号被忽略模型退化为一个纯视觉模型。VTAM通过引入变形感知的虚拟力预测正则化巧妙地解决了这一问题。这项技术的核心思想是强制模型从触觉数据中预测一个与物理力相关的紧凑信号从而在动作生成过程中保持对触觉通路的监督和敏感性。其实现步骤如下虚拟力生成给定一个无接触的参考触觉帧和当前触觉帧计算它们之间的稠密光流场。从这个变形场中推导出一个3D虚拟力向量f_virtual其中光流的空间期望近似于剪切力光流的散度近似于法向压力。# 伪代码示意从触觉图像对计算虚拟力代理 def compute_virtual_force(tactile_ref, tactile_curr): # 计算稠密光流 (optical flow) flow compute_optical_flow(tactile_ref, tactile_curr) # 从变形场推导 # 计算切向力代理光流均值 tangential_force flow.mean(dim[1,2]) # 近似剪切力 # 计算法向力代理光流散度 divergence compute_divergence(flow) # 近似压力 normal_force divergence.mean() virtual_force concatenate(tangential_force, normal_force) return virtual_force联合训练目标在动作生成头的训练中模型不仅需要预测未来的动作a_t还需要联合预测这个虚拟力f_virtual。损失函数包含了动作预测损失和虚拟力预测损失L_total L_action λ * L_force其中L_force是虚拟力的预测误差。这确保了在优化动作策略时触觉表征必须包含足够的信息来准确预测接触力从而防止模态坍缩。四、 效果验证在富接触任务中的性能飞跃VTAM的设计在真实的富接触操作任务中得到了验证其性能远超纯视觉或简单触觉融合的基线模型。薯片抓取放置任务VTAM成功率高达90%而纯视觉基线π模型成功率为0%仅后期融合触觉的模型成功率也为0%。这证明预测性的视觉-触觉联合建模对于检测抓取成功与否、并施加精确的抓取力至关重要。VTAM能在触觉确认接触后才执行抬起动作并在搬运中维持稳定夹持。黄瓜剥离与白板擦拭任务在这些需要持续力调节的任务中VTAM同样表现出色成功率85%-95%而基线模型往往无法保持稳定接触或施加的力不稳定。这表明VTAM能够利用触觉数据实时感知并调整剪切力和法向力。总结而言VTAM通过将高分辨率触觉数据深度整合到预测性世界模型的建模过程中并利用虚拟力正则化确保触觉信号在训练中的有效性使机器人不仅能“看到”还能“感觉到”接触物理。这使得其动作预测不再是基于视觉语义的粗略估计而是基于物理动力学的精确推断从而在易碎、可变形物体的精细操作中实现了质的性能提升。参考来源VTAM融合视觉-触觉预测的世界动作模型VTAM融合视觉-触觉预测的世界动作模型