【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery
快速了解部分基础信息英文1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery2.时间: 2026.043.机构: Generalist AI4.3个英文关键词: GEN-1, Embodied Intelligence, VLA1句话通俗总结本文干了什么事情本文发布了新一代通用机器人模型GEN-1通过大规模物理数据预训练和算法优化首次让机器人在简单任务上达到了接近人类的“精通”水平高成功率、高速度、能即兴应变。研究痛点现有研究不足 / 要解决的具体问题现有机器人模型如GEN-0虽然具备通用性但成功率约64%和速度不足以商用传统方法依赖昂贵的遥操作数据且泛化能力差机器人缺乏在未知突发状况下即兴解决问题的能力Improvisational Intelligence。核心方法关键技术、模型或研究设计简要基于GEN-0架构利用超过50万小时的人类穿戴设备物理交互数据进行预训练结合RL强化学习、多模态人类指导及推理时算法优化定义了“精通”Mastery作为评估标准。深入了解部分作者想要表达什么作者旨在证明通过Scaling Laws缩放定律持续扩大物理交互数据和算力可以像训练大语言模型LLM一样让机器人逐步掌握物理世界的通用智能。GEN-1证明了“精通”是可以通过数据和算法量变引起质变达到的商业门槛。相比前人创新在哪里数据来源革新预训练数据完全不使用昂贵的机器人遥操作数据而是利用低成本的人类穿戴设备捕捉的50万小时物理活动数据。定义新标准提出了“精通”Mastery的概念包含可靠性99%成功率、速度比SOTA快3倍和即兴智能Improvisation三个维度。系统级优化不仅是一个模型权重而是包含推理时协调、控制硬化等系统组件的完整系统。解决方法/算法的通俗解释想象给机器人喂了海量人类如何干活的视频和动作数据预训练让它先学会“物理常识”。然后针对具体任务如叠衣服只用极少量约1小时的该任务数据进行“微调”。模型内部通过Harmonic Reasoning等技术在运行时实时计算最优动作。解决方法的具体做法预训练在无机器人数据的情况下使用大规模人类物理交互数据训练基础模型。适应特定任务针对特定任务如装手机仅使用约1小时的特定机器人数据进行微调。系统优化引入强化学习RL、多模态人类指导以及推理时的Harmonic Reasoning技术提升动作的流畅度和速度。基于前人的哪些方法基于该团队之前的GEN-0模型证明了机器人领域存在Scaling Laws并借鉴了VLM视觉语言模型、VLA视觉语言动作模型以及World Models世界模型的研究思路。实验设置、数据、评估方式、结论数据预训练数据超50万小时人类穿戴设备数据无机器人数据特定任务微调数据仅需约1小时。评估方式对比GEN-0和从零开始训练的模型评估任务成功率Reliability、任务完成时间Speed以及面对干扰时的恢复能力Improvisation。结论GEN-1在多个任务如折叠盒子、装手机上达到99%的成功率GEN-0为64%速度提升约3倍且能处理未在训练中见过的突发状况。提到的同类工作PaLM-E, RT-2, π0, π*0.6, GPT-3和本文相关性最高的3个文献Scaling Laws in Robotics with GEN-0 (Generalist, 2025)2025.11π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)2024RT-2: Vision-Language-Action Models (Brohan et al., 2023)2023我的依然大数据依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练就能完成相应任务了。