摘要视觉-语言-动作VLA模型已成为机器人操作的一个强大范式。尽管大规模预训练和监督微调SFT取得了实质性进展但这些模型仍面临两个根本性挑战1SFT 扩展所需的大规模人工操作机器人轨迹的稀缺和高成本2对涉及分布漂移的任务泛化能力有限。最近在大型推理模型LRM方面的突破表明强化学习RL可以显著增强逐步推理能力。这自然引发了一个问题RL 能否类似地增强 VLA 的长时程逐步动作规划能力本文提出SimpleVLA-RL一个为 VLA 模型定制的高效 RL 框架。基于 veRL 框架引入了 VLA 特定的轨迹采样、可扩展并行化、多环境渲染和优化的损失计算。应用到 OpenVLA-OFT 上时SimpleVLA-RL 在 LIBERO 上达到 SoTA 性能甚至在 RoboTwin 1.0 2.0 上超越 π0。此外论文还发现了一个称为“pushcut”的新现象即 RL 训练过程中策略发现了超越先前训练数据的新模式。1. 研究背景与动机1.1 VLA 模型的现状与挑战当前 VLA 模型通常采用两阶段训练策略阶段内容问题预训练多模态数据人类视频、图文对、机器人数据集数据相对丰富SFT高质量机器人轨迹数据稀缺且昂贵两个关键挑战挑战说明数据稀缺机器人轨迹采集需要精心设计的场景、多样化的物体和熟练的操作者泛化能力差SFT 依赖有限的场景和任务特定数据遇到未见任务/环境/物体时性能下降1.2 LRM 的启示DeepSeek-R1 等大型推理模型证明仅依靠结果奖励的 RL 就能驱动显著进步增强模型的逐步推理能力。核心研究问题RL 能否类似地增强 VLA 模型生成准确动作的能力同时帮助克服 SFT 的上述两个挑战1.3 VLA RL 的独特挑战挑战说明传统 RL 依赖手工过程奖励严重限制可扩展性VLA rollout 需要多轮环境交互比 LLM 更慢、成本更高动作解码策略多样扩散、tokenization、回归只有 token 方法天然兼容 PPO2. 预备知识2.1 LLM 的 RL 形式化要素定义状态sts_tst​输入提示 已生成 token动作ata_tat​从词汇表选择下一个 token环境序列完成后提供奖励信号Rollout自回归生成直到终止无中间环境反馈2.2 VLA 的 RL 形式化要素定义状态sts_tst​视觉输入 本体感知 语言指令动作ata_tat​末端执行器控制命令6-DoF 位姿 夹爪环境物理世界或仿真提供状态转移和奖励Rollout迭代交互动作执行 → 环境更新 → 新观测奖励函数R(ai,t∣si,t){1任务成功0否则R(a_{i,t} \mid s_{i,t}) \begin{cases} 1 \text{任务成功} \\ 0 \text{否则} \end{cases}R(ai,t​∣si,t​){10​任务成功否则​其中α\alphaα平衡结果奖励和过程奖励本文采用纯结果奖励α1\alpha1α1。2.3 GRPOGroup Relative Policy OptimizationGRPO 是 DeepSeek 提出的 RL 算法消除价值函数通过组内相对归一化计算优势符号含义GGG每组轨迹数量RiR_iRi​第iii条轨迹的总奖励A^i\hat{A}_iA^i​归一化优势 (Ri−mean)/std(R_i - \text{mean}) / \text{std}(Ri​−mean)/stdri,t(θ)r_{i,t}(\theta)ri,t​(θ)重要性采样比率 πθ/πθold\pi_\theta / \pi_{\theta_{\text{old}}}πθ​/πθold​​ϵ\epsilonϵPPO 裁剪参数β\betaβKL 正则化系数3. SimpleVLA-RL 方法3.1 交互式 VLA RolloutLLM vs VLA Rollout 对比维度LLMVLA生成方式自回归生成 token动作执行 → 环境更新 → 新观测多样性来源温度采样温度采样 环境随机性反馈无中间反馈每步执行后有新状态VLA 动作解码策略兼容性策略与 PPO/GRPO 兼容性Token 生成如 OpenVLA✅ 天然兼容扩散去噪如 RDT⚠️ 需要适配确定性 MLP 回归❌ 不兼容本文选择采用 token 生成方法输出动作 token 概率分布使用随机采样生成多样化轨迹。3.2 结果奖励建模核心设计使用简单的二元结果奖励成功1失败0特点说明可扩展无需手工设计过程奖励通用适用于各种环境简单避免任务特定奖励的非迁移性奖励分配轨迹级奖励均匀传播到每个动作 token。3.3 探索增强策略问题VLA 模型倾向于收敛到狭窄的解决方案模式限制 RL 效率。三种增强策略策略说明效果动态采样排除全成功或全失败的组只保留混合结果组确保非零梯度提高裁剪上限将 GRPO 裁剪范围从 [0.8, 1.2] 扩大到 [0.8, 1.28]允许低概率 token 增加概率提高采样温度温度从 1.0 提高到 1.6生成更多样化轨迹3.4 训练目标最终损失函数J(θ)Es0∼D,{ai}i1G∼πθold[1G∑i1G1∣ai∣∑t1∣ai∣min⁡(ri,t(θ)A^i,clip(ri,t(θ),1−ϵlow,1ϵhigh)A^i)]\mathcal{J}(\theta) \mathbb{E}_{s_0 \sim \mathcal{D}, \{a_i\}_{i1}^G \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i1}^G \frac{1}{|a_i|} \sum_{t1}^{|a_i|} \min \left( r_{i,t}(\theta) \hat{A}_i, \text{clip}(r_{i,t}(\theta), 1-\epsilon_{\text{low}}, 1\epsilon_{\text{high}}) \hat{A}_i \right) \right]J(θ)Es0​∼D,{ai​}i1G​∼πθold​​​​G1​i1∑G​∣ai​∣1​t1∑∣ai​∣​min(ri,t​(θ)A^i​,clip(ri,t​(θ),1−ϵlow​,1ϵhigh​)A^i​)​关键修改移除 KL 散度正则化参考 DAPO动态采样约束0∣{成功轨迹}∣G0 |\{\text{成功轨迹}\}| G0∣{成功轨迹}∣G4. 实验4.1 实验设置基准测试基准特点任务数LIBERO终身学习语言引导操作5 个任务套件RoboTwin1.0双臂操作场景/物体多样性有限17 任务RoboTwin2.0双臂操作731 物体实例域随机化50 任务RoboTwin2.0 任务分类按步数/规划长度级别步数范围任务数Short112-1304Medium151-2234Long283-3132Extra-Long466-6372主干网络OpenVLA-OFTLLaMA2-7B 动作 tokenization 并行解码训练配置参数值GPU8 × A800 80GB学习率5e-6批大小64采样数 G8裁剪范围[0.2, 0.28]温度 T1.64.2 主要结果LIBERO 结果模型SpatialObjectGoalLong平均OpenVLA84.788.479.253.776.5π096.898.895.885.294.2UniVLA96.596.895.692.095.2OpenVLA-OFT Ours91.695.390.686.591.0RoboTwin1.0 结果平均成功率模型平均DP5.9DP358.1OpenVLA-OFT39.8 Ours70.4(30.6)RoboTwin2.0 结果按任务长度模型ShortMediumLongExtra平均RDT24.547.827.833.3π045.558.843.349.2OpenVLA-OFT21.347.146.538.3 Ours64.972.568.868.8(30.5)5. 分析5.1 克服数据稀缺设置仅用每条任务 1 条演示进行 SFTOne-Trajectory SFTLIBERO-Long 结果模型成功率One-Trajectory SFT17.3% RL91.7%Full-Trajectory SFT86.5% RL98.5%关键发现One-Trajectory SFT RL 甚至超过 Full-Trajectory SFT性能差距仅 2.2%96.9% vs 99.1%RL 可显著缓解 VLA 训练的数据稀缺瓶颈5.2 泛化能力分析设置9 个 seen 任务训练1 个 unseen 任务评估主要发现维度SFTRL训练任务性能90%90%未见任务性能严重过拟合常降至 0%持续提升5-15%灾难性遗忘严重几乎无结论RL 使 VLA 模型能够保留已有能力同时学习可泛化的技能。5.3 真实世界实验Sim2Real任务Stack Bowls, Place Empty Cup, Pick Bottle, Click Bell模型平均成功率RDT23.5%OpenVLA-OFT (SFT)17.5% RL38.5%(21.0)结论大规模仿真 RL 训练显著提升真实世界性能展示了低成本扩展真实世界策略的可行路径。6. 讨论6.1 “Pushcut”RL 中的新模式涌现观察现象在 RoboTwin2.0 的 “move can pot” 任务中数据来源策略演示数据grasp → move → place抓取-移动-放置RL 训练后push直接推送到目标位置类似现象“place a2b right” 任务中RL 模型学会直接推动而非抓取放置。意义类似 DeepSeek-R1 中的“Aha Moment”结果奖励设计避免了过程约束赋予智能体更大的探索空间成功行为通过正向奖励被强化低效行为被淘汰6.2 SimpleVLA-RL 的失败模式关键发现模型先验是决定 RL 有效性的关键因素初始能力SFT 轨迹数SFT 成功率RL 后提升00%0%01007.3%25.4%18.1100028.2%50.4%22.2结论RL 完全失败当基础模型无任务能力时0% 成功率强初始能力 → 更大 RL 收益存在性能阈值初始能力太低时RL 改进微乎其微7. 核心创新总结创新点说明首个 VLA 在线 RL 系统框架基于 veRL 扩展支持 VLA 特定交互采样探索增强三件套动态采样 裁剪上限提高 高温度采样结果奖励设计简单二元奖励避免过程奖励复杂性数据效率突破每条任务仅 1 条演示 RL → 91.7% 成功率泛化能力提升RL 显著优于 SFT避免灾难性遗忘Sim2Real 成功仿真 RL → 真实世界性能大幅提升Pushcut 现象发现RL 发现超越演示数据的新策略8. 局限性与未来方向局限性未来方向需要基础模型有非零初始能力结合更好的预训练或探索策略仅支持 token 化动作的 VLA扩展到扩散/回归动作空间仿真-真实仍有差距更逼真的仿真或域适应计算成本较高更高效的 RL 算法或蒸馏9. 结论本文提出的SimpleVLA-RL是一个为 VLA 模型定制的高效在线 RL 框架。通过将 GRPO 算法适配到 VLA 的交互式 rollout 场景并引入探索增强策略在多个基准测试上达到 SoTA 性能。三大核心贡献数据效率每条任务仅需 1 条演示RL 可将 LIBERO-Long 成功率从 17.3% 提升到 91.7%泛化能力RL 训练避免 SFT 的过拟合问题在未见任务上持续提升Sim2Real仿真 RL 训练显著提升真实世界性能21%Pushcut 现象展示了 RL 发现超越演示数据的新策略的潜力为 VLA 的自主进化提供了新思路。10. 资源论文标题SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning‍作者Haozhan Li, Yuxin Zuo, Jiale Yu 等清华 上海 AI Lab 上交 北大 港大代码开源PRIME-RL/SimpleVLA-RL