快速了解部分基础信息英文题目: Steering Your Diffusion Policy with Latent Space Reinforcement Learning时间: 2025.06机构: UC Berkeley, University of Washington, Amazon3个英文关键词: Diffusion Policy, Reinforcement Learning, Latent Space1句话通俗总结本文干了什么事情这篇论文提出了一种叫DSRL的方法它不修改Diffusion Policy 的模型参数而是通过 RL 算法去寻找一个“完美的初始噪声”利用这个噪声来“诱导”预训练好的策略输出更好的动作从而用极少的样本量实现机器人策略的快速提升。研究痛点现有研究不足 / 要解决的具体问题Behavioral Cloning (BC) 的局限基于人类演示训练的 Diffusion Policy 虽然效果好但在遇到新环境或演示数据不足时表现不佳且无法利用部署时的经验自我进化。传统 RL 微调的困难直接用 RL 微调 Diffusion Policy 需要巨大的计算量和样本量Sample Inefficient且反向传播过程数值不稳定难以在真实机器人上应用。核心方法关键技术、模型或研究设计简要DSRL (Diffusion Steering via Reinforcement Learning)将 Diffusion Policy 的输入噪声空间视为动作空间训练一个轻量级的 RL 策略Actor来选择最佳的初始噪声从而“ steering引导”冻结的 Diffusion Policy 输出高回报的动作。深入了解部分作者想要表达什么作者认为Diffusion Policy 的潜力不仅仅在于模仿数据其潜在空间Latent Space包含了丰富的行为模式。我们不需要费力地去微调庞大的模型参数只需要学会如何在这个潜在空间中“导航”即选择合适的噪声就能以极低的成本让策略适应新任务或环境。相比前人创新在哪里黑盒微调 (Black-box Finetuning)前人方法通常需要访问模型权重并进行反向传播Back-propagation计算昂贵且不稳定。DSRL完全不需要修改Diffusion Policy 的权重只需要前向推理。极高的样本效率相比直接对动作空间进行 RL 或其他微调方法DSRL 在真实机器人上仅需几十次交互50 episodes就能将成功率从 20% 提升到 90%。通用性不仅适用于 Diffusion Policy也适用于 Flow Matching 模型甚至能微调像π0\pi_0π0​这样的大规模通用策略。解决方法/算法的通俗解释想象 Diffusion Policy 是一个画技高超但性格固执的画家模型权重已冻结你让他画“猫”他只会画他训练过的那几种猫。传统 RL 微调像是强迫画家去上补习班重练画技修改权重费时费力。DSRL像是给画家提供不同的“灵感种子”初始噪声。DSRL 训练了一个小助手RL Agent这个小助手不断尝试给画家不同的种子直到画家画出了你想要的“特定姿势的猫”。解决方法的具体做法定义新环境将 Diffusion Policy 的输入噪声空间WWW定义为新的动作空间。RL 训练Actor输入状态sss输出一个特定的噪声www。Critic评估这个噪声www经由 Diffusion Policy 生成动作后的价值。噪声混叠 (Noise Aliasing)利用 Diffusion Policy 的特性不同的噪声可能生成相似的动作通过训练一个 Value 函数QWQ_WQW​来泛化未见过的噪声提高学习效率。部署在实际运行时RL 策略生成噪声www将其输入给冻结的 Diffusion Policy生成最终动作aaa。基于前人的哪些方法Diffusion Policy / Flow Matching作为基础的行为克隆策略。Actor-Critic 算法 (如 SAC)作为在潜在空间进行优化的底层 RL 算法框架。Latent Space Optimization借鉴了生成模型中优化输入噪声的思想。实验设置、数据、评估方式、结论设置仿真OpenAI Gym, Robomimic, OGBench。真机Franka Panda (单任务/多任务), WidowX (基于 Bridge V2 数据),π0\pi_0π0​(基于 DROID 数据)。结论样本效率极高在真机上DSRL 仅需约 40 个 episode 就能学会新任务而对比方法如 RLPD几乎无法学习。大模型微调成功微调了 3.3B 参数的π0\pi_0π0​模型在 Libero 任务上将成功率从 20% 提升至 100%。鲁棒性即使基础策略训练数据质量较差DSRL 也能将其修正回来。提到的同类工作DPPO直接对 Diffusion Policy 进行 PPO 微调。IDQL / IQL基于 Value 函数的离线 RL 方法。RESIP / V-GPS基于残差策略或 Value 引导的后处理方法。和本文相关性最高的3个文献Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Chi et al., 2023)DSRL 的基础定义了 Diffusion Policy 在机器人领域的应用。Diffusion Policy Policy Optimization (DPPO)(Ren et al., 2024)直接竞品尝试通过修改权重来微调 Diffusion Policy。π0\pi_0π0​: A vision-language-action flow model for general robot control(Black et al., 2024)本文成功微调的对象展示了 DSRL 对大规模 VLA 模型的适用性。