【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

张

张建站

2026/5/22 1:23:02

10分钟阅读

【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分基础信息英文1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery2.时间: 2026.043.机构: Generalist AI4.3个英文关键词: GEN-1, Embodied Intelligence, VLA1句话通俗总结本文干了什么事情本文发布了新一代通用机器人模型GEN-1通过大规模物理数据预训练和算法优化首次让机器人在简单任务上达到了接近人类的“精通”水平高成功率、高速度、能即兴应变。研究痛点现有研究不足 / 要解决的具体问题现有机器人模型如GEN-0虽然具备通用性但成功率约64%和速度不足以商用传统方法依赖昂贵的遥操作数据且泛化能力差机器人缺乏在未知突发状况下即兴解决问题的能力Improvisational Intelligence。核心方法关键技术、模型或研究设计简要基于GEN-0架构利用超过50万小时的人类穿戴设备物理交互数据进行预训练结合RL强化学习、多模态人类指导及推理时算法优化定义了“精通”Mastery作为评估标准。深入了解部分作者想要表达什么作者旨在证明通过Scaling Laws缩放定律持续扩大物理交互数据和算力可以像训练大语言模型LLM一样让机器人逐步掌握物理世界的通用智能。GEN-1证明了“精通”是可以通过数据和算法量变引起质变达到的商业门槛。相比前人创新在哪里数据来源革新预训练数据完全不使用昂贵的机器人遥操作数据而是利用低成本的人类穿戴设备捕捉的50万小时物理活动数据。定义新标准提出了“精通”Mastery的概念包含可靠性99%成功率、速度比SOTA快3倍和即兴智能Improvisation三个维度。系统级优化不仅是一个模型权重而是包含推理时协调、控制硬化等系统组件的完整系统。解决方法/算法的通俗解释想象给机器人喂了海量人类如何干活的视频和动作数据预训练让它先学会“物理常识”。然后针对具体任务如叠衣服只用极少量约1小时的该任务数据进行“微调”。模型内部通过Harmonic Reasoning等技术在运行时实时计算最优动作。解决方法的具体做法预训练在无机器人数据的情况下使用大规模人类物理交互数据训练基础模型。适应特定任务针对特定任务如装手机仅使用约1小时的特定机器人数据进行微调。系统优化引入强化学习RL、多模态人类指导以及推理时的Harmonic Reasoning技术提升动作的流畅度和速度。基于前人的哪些方法基于该团队之前的GEN-0模型证明了机器人领域存在Scaling Laws并借鉴了VLM视觉语言模型、VLA视觉语言动作模型以及World Models世界模型的研究思路。实验设置、数据、评估方式、结论数据预训练数据超50万小时人类穿戴设备数据无机器人数据特定任务微调数据仅需约1小时。评估方式对比GEN-0和从零开始训练的模型评估任务成功率Reliability、任务完成时间Speed以及面对干扰时的恢复能力Improvisation。结论GEN-1在多个任务如折叠盒子、装手机上达到99%的成功率GEN-0为64%速度提升约3倍且能处理未在训练中见过的突发状况。提到的同类工作PaLM-E, RT-2, π0, π*0.6, GPT-3和本文相关性最高的3个文献Scaling Laws in Robotics with GEN-0 (Generalist, 2025)2025.11π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)2024RT-2: Vision-Language-Action Models (Brohan et al., 2023)2023我的依然大数据依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练就能完成相应任务了。

目前热门的饲料颗粒机品牌价格

在畜牧养殖和饲料加工行业，选择一台合适的饲料颗粒机，往往意味着生产成本与产品质量的博弈。近期，不少从业者在设备选购过程中反映，市场上饲料颗粒机品牌众多，价格从几千元到数十万元不等，但真正令他们困惑…...

2026/5/22 1:21:47 阅读更多 →

⾯向对象和集合编程题

题⽬ 1：学⽣信息管理核⼼考点：对象封装、List 定制排序、Set 去重（重写 equals/hashCode）、数据清洗题⽬要求： 1. 封装 Student 类：学号（id，唯⼀标识）、姓名、年龄、成…...

2026/5/22 1:14:07 阅读更多 →

2026 最新网安学习路线｜零基础直达实战专家，细节拉满

全网最细网络安全学习路线：从零基础到实战专家（2026最新版） 网络安全作为数字时代的核心刚需领域，岗位需求持续激增，薪资水平稳居行业前列。但很多零基础学习者入门时会陷入资料杂乱、方向迷茫、学用脱节的困境——要么…...

2026/5/22 1:13:04 阅读更多 →

在Taotoken模型广场中根据场景选择合适的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Taotoken模型广场中根据场景选择合适的模型面对众多大模型厂商和琳琅满目的模型，开发者常常面临选择困难&#xff1…...

2026/5/21 15:43:20 阅读更多 →

Agent 一接流式 API 就开始响应断层：从 Delta Parsing 到 Final Assembly 的工程实战

很多开发者以为 Agent 接入流式 API 只是"开个 SSE 连接、逐字渲染"这么简单。直到生产环境报错：用户的话说到一半突然断层，工具参数在流中被截成两半，多轮对话上下句粘在一起。这些问题不是网络抖动，而是 Delta 解析和…...

2026/5/21 11:19:54 阅读更多 →

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案【免费下载链接】esp-sr Speech recognition 项目地址: https://gitcode.com/gh_mirrors/es/esp-sr ESP-SR是乐鑫推出的高性能嵌入式语音识别框架，专为资源受限的物联网设备设计…...

2026/5/21 11:47:32 阅读更多 →