机器人学习在第一阶段的核心使命是回答一个基础问题端到端的数据驱动方法在真实世界的机器人上到底能不能work2015-2016年DQN和AlphaGo的相继成功证明了端到端方法的巨大潜力。然而面对真实机器人那高维、连续的动作空间以及24小时不间断运行的工程挑战当时并没有现成的答案。为攻克这一难题Ted Xiao所在的Google Brain机器人团队开创性地将机械臂与针对性算法如QT-Opt结合并系统性地解决了仿真到现实的迁移问题。然而验证了可行性之后一个更深层的困境浮出水面强化学习的收益正在递减。分布式系统的运维噩梦、数据因代码变更而报废都昭示着“RL is Painful”。与此同时被视为“玩具”的行为克隆BC路线则长期卡在约70%的准确率瓶颈。面对这一困境团队做出了一个在当时极其反主流的决定进入“Code Yellowish”状态暂停所有论文发表花一年半时间雇佣专业操作员远程操控专门收集高质量的人类示范数据最终积累了约87,000条轨迹。这次“孤注一掷”最终带来了关键顿悟大规模模仿学习不仅能work而且正是突破瓶颈的“配方”。这一认知奠定了范式迁移的基础从在线强化学习转向大规模离线模仿学习。1、核心技术方法从工具借用 to 原生融合随着研究范式的转变技术路径也经历了从“借用”外部模型到“原生”融合的演化。早期的多路径探索在范式彻底转向之前团队进行了多方向尝试如用于大规模多任务学习的BC-Z能够一网多技能、探索神经网络记忆上限的MT-OPT以及通过“玩”来产生数据的Learning from Play。基础模型时代的“握手”这一阶段是以大型语言模型LLM和视觉语言模型VLM的爆发为起点的。SayCan (LLM as Planner)首个标志性工作利用LLM生成高层任务规划同时由一个“价值函数”评估每个子步骤在物理世界中的可行性。两者结合产出“既合理又可执行”的计划实现了语言模型与机器人的首次“握手”。RT-1 (Transformer-based Policy)将机器人策略本身也构建为一个Transformer把语言指令和图像观测全部token化输出离散化的动作。在8.7万条轨迹上训练后其性能超越了所有基线。RT-2 (VLA, VLM as Backbone)实现了最激进的跳跃——不借用VLM做规划而是直接将VLM作为机器人的策略骨架。它将动作预测任务重构为视觉问答使模型涌现出前所未有的推理和泛化能力。规模化时代的“涌现”进入Scaling时代技术不再是从零造轮子而是基于一个强大的基座模型进行各个维度的加码。Gemini Robotics ER (Embodied Reasoning)洞察到VLM在物理常识上的短板专门为Gemini模型补齐了3D物体检测、抓取角度预测等具身推理能力再“喂”给下游策略实现能力跃升。Gemini Robotics 1.5 (Reasoning Motion Transfer)引入“推理”机制让机器人在执行前先用自然语言“想一想”将长时域任务分解。更关键的是动作迁移能力一个神经网络可将运动经验零样本迁移到运动学结构完全不同的平台上。2、关键项目与里程碑演进文章提到的项目并非孤立的算法创新而是构成了一条清晰的演进脉络时代划分代表性项目核心思路关键意义存在性证明时代QT-Opt, BC-Z端到端强化学习、多任务模仿学习证明可行性的早期探索基础模型时代SayCan, RT-1, RT-2用大模型做规划、Transformer策略、VLA原生策略终结了“BC只能到70%”的旧信念找到规模化配方规模化时代Gemini Robotics ER/1.5, Pi 0.6增强VLM的具身推理、引入“思考”机制、后训练突破黑箱强化物理常识推理实现跨本体零样本迁移此外评估体系也变得更加多元化出现了基于仿真的Sim-to-Real评估、分布式跨机构评估如RoboArena等新方法。数据方面人类第一视角的自我中心数据如GAI的五十万小时交互数据成为“当红炸子鸡”被视为突破数据瓶颈的关键。3、总结与展望迈向通用之路Ted Xiao对具身智能领域进行了深刻反思发展范式演变从强化学习到模仿学习再到VLA根本驱动力都是“数据”规模化。旧瓶颈被打破新瓶颈出现推动时代更迭。重要发展方向Ted看好两条路径——①视频动作模型使用生成式模型来理解物理世界②第一人称人类数据大规模采集并利用人类操作的一手数据。原理类比与整合文章提出了一个深刻的隐喻操控Manipulation像大脑皮层需要示例和监督运动控制Locomotion像小脑/脊髓是反射性的。如何将大脑操控、小脑运动与长时域推理能力三者融合是当前最核心的开放问题。“ChatGPT时刻”尚未到来Ted认为机器人领域的“ChatGPT时刻”在产品层面仍需时间但所需的技术拼图正以前所未有的速度变得完整。它更像一场多维度的赛跑而非等待一个单一突破。