视觉-语言-动作模型解剖学从模块、里程碑到核心挑战想象一下这个场景你对家里的机器人说帮我把餐桌上的蓝色杯子拿到厨房水槽里洗一下。一个普通的机器人可能会愣住——它不知道什么是蓝色杯子不知道餐桌在哪里更不知道洗一下具体要做什么动作。而一个装备了视觉-语言-动作(VLA)模型的机器人会立刻理解你的指令识别出餐桌上的蓝色杯子规划出一条安全的路径伸出手臂拿起杯子走到水槽边打开水龙头完成清洗动作。这就是具身智能的终极目标让机器人能够像人类一样通过视觉感知世界通过语言理解指令通过动作改变环境。而VLA模型正是实现这个目标的核心技术。它将计算机视觉、自然语言处理和机器人控制三大领域融为一体是当前人工智能最热门的研究方向之一。这篇2025年12月发表的权威综述是目前VLA领域最全面、最系统的研究总结。它没有像传统综述那样简单罗列论文而是采用了一个独特的金字塔结构从基础模块到发展里程碑再到核心挑战为我们描绘了一幅完整的VLA技术全景图。论文信息标题An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)单位IROOTECH TECHNOLOGY、三一重工、伦敦国王学院、香港理工大学、达姆施塔特工业大学、帝国理工学院等代码github.com/irootech/vla-anatomy (官方项目仓库持续更新)论文https://arxiv.org/pdf/2512.11362一、论文整体结构一座VLA知识金字塔这篇综述最独特的地方就是它的结构它完全按照一个研究者学习VLA的自然路径来组织形成了一个清晰的金字塔结构图1本综述的金字塔结构出处原文Figure 1底层基础第2章详细拆解了任何VLA模型都必须包含的三个核心模块感知、大脑和动作中层历史第3章追溯了VLA领域从2017年到2025年的完整发展历程标记了所有关键里程碑顶层前沿第4章深入分析了当前VLA研究面临的五大核心挑战以及对应的解决方案和未来方向附录应用详细介绍了VLA模型在家庭机器人和工业机器人领域的实际应用这种结构让新手可以从基础开始逐步深入而资深研究者也可以直接跳到自己感兴趣的挑战部分非常实用。二、VLA模型的基本模块机器人的五官、“大脑和四肢”任何一个VLA系统无论多么复杂都可以拆解为三个核心部分感知模块五官、大脑模块中枢神经系统和动作模块四肢。2.1 通用目标函数所有VLA模型的训练目标都可以统一表示为行为克隆的损失函数min⁡θE(o,l,a)∼D[−log⁡πθ(a∣o,l)]\min_{\theta} \mathbb{E}_{(o, l, a) \sim D} \left[ -\log \pi_\theta(a | o, l) \right]θmin​E(o,l,a)∼D​[−logπθ​(a∣o,l)]其中θ\thetaθVLA模型的所有可学习参数ooo观测通常是RGB图像、深度图或点云lll自然语言指令aaa机器人的动作关节角度、末端执行器位姿等DDD由人类专家演示组成的训练数据集πθ(a∣o,l)\pi_\theta(a | o, l)πθ​(a∣o,l)策略函数表示在观测ooo和指令lll下执行动作aaa的概率E\mathbb{E}E对数据集求期望通俗解释这个公式的意思是我们要让机器人尽可能准确地模仿人类专家的行为。当机器人看到和专家一样的场景、听到一样的指令时它应该做出和专家一样的动作。2.2 感知模块机器人的五官感知模块负责将物理世界的原始信号转换为模型可以理解的特征表示。它由三个子模块组成视觉编码器、语言编码器和本体感觉编码器。2.2.1 视觉编码器机器人的眼睛视觉编码器是VLA模型中最重要的感知组件它的发展经历了四个阶段视觉编码器类型代表模型优点缺点典型应用卷积神经网络(CNN)ResNet、EfficientNet局部特征提取能力强、速度快全局上下文能力弱实时性要求高的场景语言监督ViTCLIP、SigLIP视觉-语言对齐能力强几何精度不足语义理解任务自监督ViTDINOv2几何结构感知能力强缺乏语义对齐精确操作任务混合架构SigLIPDINOv2兼顾语义和几何计算量较大通用VLA模型原生VLMPaLI-X、PaliGemma端到端多模态理解参数量大大型通用模型表1视觉编码器对比出处原文第2.2.1节整理当前SOTA趋势几乎所有2024-2025年的SOTA VLA模型如OpenVLA、π₀、GR-2都采用了SigLIPDINOv2混合视觉编码器它同时具备CLIP的语义理解能力和DINOv2的几何精度。2.2.2 语言编码器机器人的耳朵语言编码器负责将自然语言指令转换为语义特征。它的发展也经历了三个阶段传统TransformerBERT、T52022年以前大语言模型(LLM)Llama 2、Gemma2023-2024年原生视觉-语言模型(VLM)Qwen-VL、PaliGemma2025年至今当前SOTA趋势直接使用预训练的VLM作为语言编码器这样可以同时处理视觉和语言输入实现更深度的跨模态融合。2.2.3 本体感觉编码器机器人的触觉本体感觉输入包括关节角度、末端执行器位姿、夹爪状态等低维结构化数据。由于数据维度低、结构简单MLP多层感知机仍然是最常用的本体感觉编码器。2.3 大脑模块机器人的中枢神经系统大脑模块是VLA模型的核心负责融合多模态特征、进行推理和规划、生成动作意图。当前主流的大脑架构有四种2.3.1 纯Transformer架构这是最经典的架构将视觉、语言和本体感觉都转换为token序列然后用一个统一的Transformer处理。代表模型RT-1、VIMA、GR-1优点简单统一、端到端训练缺点长序列处理效率低2.3.2 扩散Transformer(DiT)架构使用扩散模型作为生成核心Transformer引导去噪过程。代表模型Diffusion Policy、RDT-1B、TriVLA优点擅长建模复杂的连续动作分布、生成平滑自然的运动缺点推理速度较慢需要多次迭代2.3.3 混合架构将Transformer的语义推理能力与扩散/流匹配的动作生成能力结合起来。代表模型π₀、Octo、π₀.5优点兼顾推理能力和动作精度、推理速度快缺点架构相对复杂2.3.4 原生VLM架构直接在预训练的VLM基础上扩展动作输出头。代表模型RT-2、OpenVLA、Gemma Robotics优点继承了VLM的强大泛化能力和世界知识缺点需要大量的机器人数据进行微调当前SOTA趋势混合架构和原生VLM架构是2025年的绝对主流几乎所有新模型都采用这两种架构之一。2.4 动作模块机器人的四肢动作模块负责将大脑生成的抽象动作意图转换为具体的低-level控制命令。它的设计直接决定了机器人的动作精度和流畅度。2.4.1 动作表示动作表示有三种主流方式离散表示将连续动作空间离散化为bin转换为分类问题优点训练稳定、容易与Transformer结合缺点精度有限连续表示直接回归连续的动作值优点精度高、动作平滑缺点训练难度大混合表示不同控制维度使用不同表示例如连续的位置离散的旋转离散的夹爪开合优点兼顾精度和训练稳定性2.4.2 动作解码动作解码也有三种方式自回归解码一步一步生成动作每个动作依赖之前的所有动作优点擅长长序列建模缺点延迟高非自回归解码一次性生成整个动作序列优点速度快、延迟低缺点长序列一致性差分块解码自回归地生成动作块每个块内非自回归解码优点兼顾速度和长序列一致性缺点需要调整块大小2.5 核心代码实现一个现代VLA模型下面是一个简化的现代VLA模型实现采用了当前最流行的SigLIPDINOv2混合视觉编码器Llama语言编码器混合架构importtorchimporttorch.nnasnnfromtransformersimport(SiglipVisionModel,Dinov2Model,LlamaForCausalLM,AutoTokenizer)classModernVLA(nn.Module):def__init__(self,siglip_model_namegoogle/siglip-base-patch16-224,dinov2_model_namefacebook/dinov2-base,llama_model_namemeta-llama/Llama-2-7b-chat-hf,action_dim7,# 6维位姿 1维夹爪hidden_dim768):super().__init__()# 混合视觉编码器SigLIP(语义) DINOv2(几何)self.siglip_encoderSiglipVisionModel.from_pretrained(siglip_model_name)self.dinov2_encoderDinov2Model.from_pretrained(dinov2_model_name)# 视觉投影层将两个编码器的输出融合self.vision_projnn.Sequential(nn.Linear(self.siglip_encoder.config.hidden_sizeself.dinov2_encoder.config.hidden_size,hidden_dim),nn.ReLU(),nn.Linear(hidden_dim,hidden_dim))# 语言编码器和分词器self.tokenizerAutoTokenizer.from_pretrained(llama_model_name)self.llama_encoderLlamaForCausalLM.from_pretrained(llama_model_name,output_hidden_statesTrue)# 语言投影层self.language_projnn.Linear(self.llama_encoder.config.hidden_size,hidden_dim)# 跨模态注意力融合视觉和语言特征self.cross_attentionnn.MultiheadAttention(hidden_dim,num_heads8,batch_firstTrue)# 动作解码器流匹配头(Flow Matching)self.action_decodernn.Sequential(nn.Linear(hidden_dim,hidden_dim*2),nn.ReLU(),nn.Linear(hidden_dim*2,hidden_dim),nn.ReLU(),nn.Linear(hidden_dim,action_dim))# 冻结预训练编码器的大部分参数只微调顶层self._freeze_pretrained_weights()def_freeze_pretrained_weights(self):# 冻结SigLIP的前8层forparaminself.siglip_encoder.vision_model.encoder.layers[:8].parameters():param.requires_gradFalse# 冻结DINOv2的前8层forparaminself.dinov2_encoder.encoder.layers[:8].parameters():param.requires_gradFalse# 冻结Llama的前24层forparaminself.llama_encoder.model.layers[:24].parameters():param.requires_gradFalsedefforward(self,images,instructions):# 编码视觉输入siglip_outputsself.siglip_encoder(pixel_valuesimages)siglip_featuressiglip_outputs.last_hidden_state# [B, N1, d1]dinov2_outputsself.dinov2_encoder(pixel_valuesimages)dinov2_featuresdinov2_outputs.last_hidden_state# [B, N2, d2]# 融合视觉特征combined_vision_featurestorch.cat([siglip_features,dinov2_features],dim-1)vision_featuresself.vision_proj(combined_vision_features)# [B, N1N2, d]# 编码语言输入language_inputsself.tokenizer(instructions,paddingTrue,truncationTrue,return_tensorspt).to(images.device)language_outputsself.llama_encoder(**language_inputs)language_featuresself.language_proj(language_outputs.hidden_states[-1])# [B, M, d]# 跨模态注意力视觉特征作为query语言特征作为key和valuefused_features,_self.cross_attention(vision_features,language_features,language_features)# 全局平均池化得到全局特征global_featurestorch.mean(fused_features,dim1)# 解码动作actionsself.action_decoder(global_features)returnactions# 测试模型modelModernVLA()imagestorch.randn(2,3,224,224)# 2张RGB图像instructions[把红色的方块放到蓝色的盒子里,拿起桌子上的杯子]actionsmodel(images,instructions)print(f预测动作形状:{actions.shape})# 输出: torch.Size([2, 7])三、VLA模型的发展历程从蹒跚学步到通用智能VLA模型的发展可以清晰地分为四个阶段如下图所示图2VLA模型、数据集和基准的时间线2022-2025出处原文Figure 23.1 萌芽期2017-2019视觉-语言导航的诞生2018年VLNVision-and-Language Navigation基准提出首次将语言指令与视觉导航结合起来2018年EmbodiedQA提出定义了具身问答任务特点主要关注导航任务动作空间简单前后左右没有复杂的操作3.2 成长期2020-2021从导航到操作2020年ALFRED基准提出首次引入了需要与物体交互的长horizon任务2021年CLIPort发表首次将预训练的视觉-语言模型应用于机器人操作任务特点开始关注操作任务引入了预训练模型零样本泛化能力初步显现3.3 爆发期2022-2023大模型时代的到来2022年SayCan发表首次将LLM用于机器人高层规划2022年RT-1发表第一个真正意义上的端到端VLA模型2023年RT-2发表首次将VLM扩展到机器人控制2023年Diffusion Policy发表扩散模型成为动作生成的主流范式2023年Open X-Embodiment数据集发布跨机器人学习成为可能特点大模型全面进入VLA领域端到端架构成为主流泛化能力大幅提升3.4 成熟期2024-至今通用机器人智能的黎明2024年Octo发表第一个开源的通用机器人策略2024年OpenVLA发表第一个开源的7B参数VLA模型2024年π₀发表首次将流匹配用于VLA动作生成2025年Humanoid-VLA和GR00T N1发表VLA扩展到人形机器人控制特点开源模型大量涌现性能接近闭源模型开始应用于人形机器人和工业场景四、VLA研究的五大核心挑战通往通用机器人的拦路虎虽然VLA模型取得了巨大的进步但仍然面临着许多根本性的挑战。这篇综述将这些挑战归纳为五大类如下图所示图3VLA挑战分类体系出处原文Figure 34.1 多模态对齐与物理世界建模图4多模态对齐与物理世界建模挑战出处原文Figure 4这是VLA模型最基础也是最核心的挑战。它可以分解为三个子问题视觉-语言鸿沟如何让模型理解红色杯子这几个字对应图像中的哪个物体视觉-语言-动作鸿沟如何让模型理解拿起这个动词对应什么样的手臂运动从2D图像到3D时空表示如何让2D预训练的模型获得3D空间理解能力当前解决方案混合视觉编码器SigLIPDINOv2点云输入和3D VLM世界模型预测未来状态未来方向原生多模态架构从训练开始就将视觉、语言和动作放在同一个token空间中。4.2 指令跟随、规划与鲁棒实时执行图5指令跟随与执行挑战出处原文Figure 5这个挑战关注的是模型如何理解复杂指令、进行长horizon规划并在真实世界中可靠执行。它包括复杂指令解析如何理解模糊、歧义、多模态的指令分层规划与任务分解如何将打扫房间这样的大任务分解为可执行的小步骤错误检测与自主恢复当任务失败时如何自动发现并纠正实时执行与计算效率如何在保证性能的同时降低推理延迟当前解决方案分层架构VLM做高层规划单独的控制器做低层执行思维链(CoT)推理生成中间步骤或子目标图像模型压缩与量化1位、4位量化蒸馏小模型非自回归解码并行生成动作序列未来方向自适应决策系统根据任务复杂度自动决定思考的深度。4.3 从泛化到持续适应图6泛化与持续学习挑战出处原文Figure 6这个挑战关注的是模型如何在新环境、新任务、新机器人上表现良好并在部署后继续学习。它包括开放世界泛化如何处理训练中没有见过的物体和场景持续学习与增量技能获取如何学习新技能而不忘记旧技能模拟到真实迁移如何将在模拟器中学到的技能迁移到真实世界在线交互与强化学习如何通过与环境的交互来改进策略当前解决方案大规模多任务/多机器人预训练互联网视频知识迁移参数隔离与经验重放VLM作为奖励函数自动生成奖励未来方向形态无关表示一个统一的大脑可以控制任何形态的机器人。4.4 安全、可解释性与可靠交互图7安全与可解释性挑战出处原文Figure 7这个挑战关注的是如何让VLA模型安全、可靠、值得信任。它包括可靠性与安全保障如何防止机器人执行危险动作可解释性如何让人类理解机器人为什么做出某个决策可信交互如何让人类与机器人进行自然、流畅的协作当前解决方案基于约束的安全范式机器人宪法、安全阈值基于学习的对齐范式宪法AI、安全强化学习思维链推理输出自然语言解释行为可预测性设计让机器人的动作符合人类预期未来方向内在不确定性感知机器人能够知道自己什么时候不知道并主动寻求人类帮助。4.5 数据构建与基准测试标准图8数据与基准挑战出处原文Figure 8这个挑战是所有其他挑战的基础。VLA模型的能力最终受限于训练数据的规模和质量。它包括多源异构数据统一如何整合来自不同机器人、不同环境的数据数据增强与优化如何在有限的真实数据下提高模型性能基准测试标准化如何公平、全面地评估VLA模型的能力当前解决方案表示级统一学习共享的动作和状态表示生成式数据增强用扩散模型生成多样化的训练数据标准化数据集Open X-Embodiment、BridgeData V2全面的基准测试EmbodiedBench、EWMBench未来方向模拟优先、失败中心的范式用模拟器生成无限数据将失败作为重要的学习信号。五、VLA模型的典型应用VLA模型已经开始从实验室走向实际应用在两个领域表现最为突出5.1 家庭服务机器人家庭环境是VLA模型的天然试验场。未来的家庭机器人将能够理解自然语言指令执行各种家务识别和操作成千上万种不同的 household 物品适应不同家庭的布局和习惯与人类进行自然的交流和协作案例特斯拉Optimus人形机器人就是基于VLA模型设计的它已经能够执行折叠衣服、搬运物品、浇花等复杂的家务任务。5.2 工业与物流机器人工业环境对机器人的精度、可靠性和安全性要求更高。VLA模型正在彻底改变工业自动化快速切换任务不需要重新编程只需要通过语言指令处理多样化的工件可以识别和操作不同形状、大小的物体协作机器人可以与人类工人安全地并肩工作自主故障检测与恢复当出现问题时可以自动解决案例亚马逊的仓库机器人已经开始使用VLA模型来处理各种不同的商品大大提高了仓库的运营效率。六、未来展望通用机器人智能的黎明这篇综述最后指出VLA模型正处于一个关键的转折点。在未来几年我们将看到以下几个重要的趋势形态无关的通用机器人大脑一个统一的模型可以控制任何形态的机器人从机械臂到四足机器人再到人形机器人。自主开放进化机器人将能够在部署后主动探索环境发现自己的知识缺口并自动生成训练数据来改进自己。内在物理理解VLA模型将从模仿表面行为发展到真正理解物理规律能够预测动作的后果并进行因果推理。可信的人机协作机器人将变得更加安全、可解释和可预测成为人类真正的合作伙伴。总结这篇综述为我们提供了一个全面、系统、深入的VLA技术全景图。它从基础模块到发展里程碑再到核心挑战清晰地展示了VLA领域的过去、现在和未来。VLA模型是实现通用机器人智能的关键一步。虽然我们仍然面临着许多挑战但技术的进步速度正在不断加快。在不久的将来我们将会看到越来越多的VLA机器人走进我们的生活和工作为我们提供各种服务。