论文随笔: Twist 2 可扩展、可移植且整体化的人形机器人数据采集系统
最近合作的实验室入手了Pico和人形机器人以及一个简易的智能Neck于是开始上马相关的项目后面应该会更新更多关于Twist2项目相关的复现过程欢迎关注。论文地址:https://arxiv.org/abs/2511.02832图 1 我们提出 TWIST2一种强调可扩展性与便携性的整体式人形数据采集系统。与 TWIST [1] 等动捕方案相比TWIST2 能实现更可扩展的数据采集、更快的部署以及更好的用户体验同时仍保持完整的全身控制。我们制作了一个 2 自由度颈部TWIST2 Neck以支持以自我为中心的遥操作成本约 250 美元。借助 TWIST2我们的机器人能够完成长时域、灵巧、移动的全身操作与腿式操作任务。所有任务均由单一操作者完成并依赖流式传输的机器人自我视角视觉、完整全身控制等能力。我们进一步基于 TWIST2 采集的数据训练视觉运动策略。整个系统已在https://yanjieze.com/TWIST2开源以确保完全可复现。摘要——大规模数据推动了机器人技术的突破从语言模型到双臂操作中的视觉-语言-动作模型。然而人形机器人领域却缺乏同样高效的数据采集框架。现有的人形遥控系统要么采用解耦控制要么依赖昂贵的动作捕捉设备。我们提出了TWIST2——一种便携式、无需动作捕捉的人形遥控与数据采集系统。该系统在保持全身完整控制的同时显著提升了可扩展性。我们的系统利用PICO4U VR实时获取人体全身体态信息并配备了一款成本约250美元的定制两自由度机器人颈部以实现自我中心视角从而支持从人类到人形机器人的全方位控制。我们展示了人形机器人在长时程下具备灵巧性和移动性的多项技能且仅需15分钟即可完成100次示范演示成功率接近100%。在此基础上我们提出了一种分层视觉运动策略框架能够**基于自我中心视觉自主控制整个人形机器人的全身动作。**这一视觉运动策略成功地实现了全身灵巧操作和动态踢球任务。整个系统完全可复现并已开源至https://yanjieze.com/TWIST2。我们收集的数据集也已开源https://twist-data.github.io。一、引言大规模数据的变革性力量从根本上重塑了机器学习推动了从GPT-4等大型语言模型的突破性成果到近期视觉-语言-行动VLA模型在机器人技术领域的成功。在双臂操作领域诸如To [6] 和 To.5 [7] 等模型已展现出前所未有的能力而这正是得益于强大且可扩展的数据采集基础设施 [8]-[10] 的直接赋能。然而这场由数据驱动的革命尚未惠及类人机器人由于缺乏同样高效的数据采集框架类人机器人在实现人类级别的多功能操作与移动方面仍面临诸多限制。表 I近期人形机器人数据采集系统对比。 我们从对高效数据采集至关重要的关键维度对现有人形遥操作系统进行比较。TWIST2 是首个将完整全身控制与便携性结合的系统因而实现了包括以自我为中心的遥操作、精确跟踪以及单人操作效率在内的综合能力。与以往工作不同先前方法要么为了完整全身控制而牺牲便携性TWIST要么为了便携性而牺牲完整全身控制AMO、CLONE我们的系统满足可扩展人形数据采集的全部关键需求。表头按列Humanoid Data Collection System人形数据采集系统Category类别Source数据来源Portability Scalability便携性与可扩展性Portable便携No Calibration无需标定Single Operator单人操作Holistic Control整体式控制Whole-Body Tracking全身跟踪Egocentric Teleop以自我为中心遥操作Foot Control脚部控制Wrist Control如表I所示现有的仿人 teleoperation 系统大致可分为三类a下肢与上肢的解耦控制例如MobileTV[11]、HOMIE [2]b部分全身控制即协调控制选定的身体部位如手臂和躯干而腿部则跟踪基座速度指令例如AMO[3]、CLONE [4]c全身体控直接跟踪人体姿态。所有关节包括手臂、躯干和腿部以统一的方式进行控制例如HumanPlus [12]、TWIST [1]。其中基于虚拟现实的解决方案如AMO和CLONE虽然具备实用性但仅限于具备简单移动能力的肢体动作难以捕捉人类自然表现出的全身动态协调技能。相比之下全身体控技术最具潜力能够充分释放人形机器人的多功能性这一点在TWIST[1]中得到了验证。然而这类系统通常依赖于昂贵且不可便携的动作捕捉设备从而限制了其在实验室环境之外的部署应用。在本工作中我们推出了一款名为TWIST2的人形遥操作与数据采集系统。该系统在保持全身完整控制能力的同时进一步提升了便携性和可扩展性。我们的设计采用了PICO4U[13]这一轻量级VR设备它通过头戴式显示器、手持控制器以及安装于脚踝的两个动作追踪器即可实现全身动作的实时流传输而无需昂贵的动作捕捉系统。鉴于以自我为中心的视觉对于实现类人任务至关重要我们还设计了一种低成本且无创的颈部装置可无缝集成到Unitree G1机器人及我们的VR遥操作生态系统中。借助这些便携式组件我们构建了一套完整的重定向流程从PICO捕捉的全身体态映射至对应的人形机器人各运动关节位置。为了在机器人上精确执行重定向后的动作我们利用强化学习并基于精心筛选的动作数据在大规模仿真环境中训练出一套稳健的动作追踪控制器。这些要素共同实现了高效、长时程的野外远程操控与数据采集无需依赖动作捕捉系统仅需一名操作员即可完成。我们展示了1我们能够远程操控机器人执行长时间且精细的全身灵巧技能例如叠毛巾以及移动类技能如将物体搬运过门2我们能够高效地收集人类示范数据例如在20分钟内成功采集约100个示范动作而未出现任何失败。此外我们还发现以自我为中心的主动立体视觉对于实现长时程的移动与灵巧远程操控至关重要。在此可扩展数据采集管道的基础上我们进一步提出了一种分层的视觉运动策略学习框架该框架由两个组成部分构成。第一个组成部分与远程操作期间所使用的运动跟踪控制器相同用作低级控制器。第二个组件是一种扩散策略它直接根据视觉观测预测全身各关节的位置并将这些信息输入到低层控制器中。据我们所知这是首个能够实现基于视觉的全人形机器人自主控制的策略学习框架其功能超越了仅限于根部速度等简化指令的控制方式。值得注意的是这一能力的实现得益于我们的数据采集系统该系统提供了训练所需的高质量示范数据。我们展示了几个具有代表性的结果我们的类人机器人能够自主完成a连续的全身灵巧抓取与放置以及b对T形盒子进行持续踢击并命中目标区域Kick-T这彰显了这一全新框架的潜力。总而言之我们的主要贡献是1一种便携式、无需动作捕捉的仿人 teleoperation 与数据采集系统具备全身完整控制功能并可加装颈部以实现自我中心的主动视觉。2一种分层的全身视觉运动策略学习框架可实现对全身的全面控制。3展示长时程遥操作技能例如叠/展毛巾、通过门搬运物体以及有效采集数据并开发全新的自主人形机器人技能包括全身灵巧的抓取与放置以及踢球技术。我们的系统、数据和模型已在 https://yanjieze.com/TWIST2 上完全开源以确保完全可复现性。二、相关工作A. 全身人形遥控操作遥操作对于使仿人机器人与复杂的真实环境交互并执行高难度的肢体-操作任务至关重要。与轮式机器人或桌面机械臂不同仿人机器人的拟人化特性使得全身控制成为最自然、最有效的遥操作方式[1],[3],[4],[12],[14]-[16]。如表I所示我们近期的研究工作可分为三大类a解耦控制b部分全身控制以及c全全身控制。正如TWIST[1]所展示的全全身控制技术在协调的全身灵巧性方面展现出令人鼓舞的成果而这正是——本工作的主要关注点。如表I所示我们确定了可扩展且整体的遥操作与数据采集中若干关键方面这些方面在以往的研究中尚存在不足而我们在本工作中对此进行了全面解决。B. 视觉人形控制以往关于视觉人形机器人控制的研究主要依赖激光雷达实现感知型运动[17]-[19]通常采用针对特定任务的从仿真到现实的强化学习RL方法。近期的一些研究如HEAD [20]提出了基于关键点的分层框架结合人形机器人以自我为中心的视觉系统但其应用仅限于简单的导航任务。VideoMimic [18]则提出了一种“真实→仿真→真实”的全流程方案使真实机器人能够执行诸如坐下等环境交互动作不过这些交互仍局限于地面或石椅等静态场景。还有一些研究如PDC [21]仅在仿真环境中开展面临严重的仿真到现实迁移难题。相比之下我们的工作致力于开发通用的视觉-运动人形机器人策略使其能够与复杂环境互动并完成长时程的全身运动-操作以及腿部操控任务——这些能力在以往的研究中尚未得到验证。三、我们的系统我们推出TWIST2这是一种可扩展、便携且整体化的仿人 teleoperation与数据采集系统功能详见图1。如图2所示我们的系统由四个主要组成部分构成配备主动视觉的仿人机器人第III-B节、采用VR设备的便携式动作捕捉技术第III-C节、整体化的人机运动重定向技术第III-D节以及用于低层控制的通用运动追踪器第III-E节。这些组件协同工作实现了可扩展的数据采集第II-F节和自主的视觉-运动策略执行第III-G节。A. 问题表述我们致力于开发统一的控制框架使人形机器人具备全面的主动视觉和运动技能完成多样化的运动与交互任务。为此我们提出了一种两级分层控制框架由低级控制器 π_low 和高级控制器 π_high 组成。在低级控制层我们将低级控制器 π_low 视为一个通用的运动跟踪问题从而使低级控制与具体任务解耦。低级控制器在每个时间步都会接收到一个参考命令向量 p_cmd该向量由以下内容构成根部在 x、y 方向的平移速度、根部在 z 方向的位置、根部的俯仰和横滚角、根部的偏航角速度以及整个身体的目标关节位置。此外它还可以访问机器人的本体状态包括来自 IMU 读取的根部姿态和角速度以及从各个关节编码器获得的关节位置和速度。低级控制器输出的目标关节位置记为 q_tgt该目标位置再由 PD 控制器跟踪以生成最终的关节力矩。在 50 Hz 频率下这些信号由低层 PD 控制器跟踪以生成最终关节力矩高层控制方面我们将 π_high 设计为一个基于图像 o 和本体状态 s 输出运动控制命令 p_cmd 的函数。在本工作中我们使用了两种不同的高层策略一类是遥操作策略 π_high^teleop另一类是视觉运动策略 π_high^auto它们都服从以上同样的接口约束。接口设计时我们采用相对位姿表示而不是绝对位姿以避免系统过度依赖精确的全局状态估计 [22]并在极长时间尺度下保持稳定。同时我们引入了全身关节位置信息而不是仅用根部速度 [3, 4, 11]这一设计既能提升下肢动作的控制精度也为脚部操作、舞蹈等任务提供了可能。B. 具有主动视觉的有人形机器人我们采用 Unitree G1 机器人其关节自由度为 293 个自由度的腰部、两条腿各 6 个自由度、两条手臂各 7 个自由度并配备了两只 Dex31 手。我们发现增加的自由度对于实现高难度和长时程的精细动作至关重要因此我们开发了一种附加式低成本颈部模块TWIST2 颈部。与近期一些工作 [3, 23] 中采用内置颈部结构的做法不同附加式设计具有明显优势它无需对 Unitree G1 机器人做大规模拆装就能兼容现有机身结构见图 3。我们的设计灵感来自 ToddlerBot [24]该颈部采用两台 Dynamixel XC330‑T288 电机分别控制偏航和俯仰通过 U2D2 串口模块与主控通信供电由 12V/5A 的电源提供结构件则全部通过 FDM 3D 打印完成总成本约为 250 美元。我们将 ZED Mini 作为安装在颈部末端的主动立体摄像头ZED Mini 本身价格约为 400 美元在本文成本估算中单独列出不计入颈部成本。为进一步标准化 TWIST2 颈部的使用并便于仿真我们在 MuJoCo 中构建了其完整的关节和碰撞模型如图 4 所示。图 2Fig. 2图 2TWIST2 的系统概览。我们使用便携式设备与以自我为中心的主动视觉构建了一个整体式人形遥操作系统从而支持可扩展的模仿学习数据采集。基于采集到的数据我们进一步构建了一个分层的视觉运动策略学习框架可直接预测全身关节位置。图 3Fig. 3图 3TWIST2 颈部。我们设计了一个简单但有效的 2 自由度颈部结构非专业用户也能轻松组装并且无需移除 Unitree G1 原有的 LiDAR即可将其安装到机器人上或从机器人上拆卸下来。图 4Fig. 4图 4MuJoCo 中的 TWIST2 颈部。为便于在仿真中开展研究并标准化我们的数据我们为 TWIST2 颈部构建了 MuJoCo XML 文件。图 5Fig. 5图 5用机器人颈部模仿人类颈部。我们发现一个 2 自由度的颈部偏航与俯仰就足以模仿人类颈部的主要运动。C. 便携式无动作捕捉全身人体数据源为了以便携方式实时获取完整的人体姿态我们采用了PICO 4U[13]并搭配两个绑在人体小腿上的PICO运动追踪器[25]从而获取人体各部位的全局平移和旋转信息。尽管PICO支持多达多个运动追踪器但我们发现采用双追踪器模式能提供更稳定的姿态估计。这种配置的成本大约为1000美元左右。与光学动作捕捉系统相比它更便宜且更实用。我们使用XRoboToolkit[26]来获取来自PICO的动作流数据图6。该动作流的传输频率可达到100Hz。值得注意的是与动作捕捉系统相比PICO无需进行复杂的校准。如图1所示完成PICO的设置仅需约1分钟。与波士顿动力近期演示中所使用的HTC Vive Tracker[27]相比**PICO的全身姿态估计无需额外设置第三人称视角摄像头因此更加灵活。**D. 全面的人类到类人机器人重定向在本节中我们介绍了如何整体利用人体运动数据来控制人形机器人的躯干、手部和颈部。身体重定向。我们对实时运动重定向方法GMR[1]、[29]进行了适配使其能够应用于PICO人体动作格式图6。原始的GMR采用两阶段优化1求解旋转一致性2优化全局姿态对齐。由于PICO动作捕捉往往受全局姿态估计不够准确影响我们对第二阶段优化进行了如下改进1针对下半身优化位置与旋转约束2针对上半身仅优化旋转约束。这样可以确保1减少脚部滑动现象2提升上半身的瞬移体验。我们将重定向后的连杆分为下肢 Llow例如骨盆、髋部、膝关节、踝关节、脚部和上肢 Lup例如脊柱、肩部、肘部、腕部、头部。设Rhuman和Rrobot(q)分别为连杆的朝向p human 和 p robot(q)分别为选定的一组下肢点Plow通常为脚/踝亦可选骨盆的连杆位置。为了降低对噪声全局姿态估计的敏感性并支持用户瞬移我们以骨盆为中心框架来测量所有人体位置。随后第二阶段的优化可表述为其中w 和 λ 是各条链路的权重。λ_pos用于平衡旋转项和位置项p_human,pelvis 表示以人体骨盆坐标系为参考的人体关键点。这种表达方式能够精确控制足部和踝部的位置从而有效避免足部滑动同时上半身则完全不会受位置项的影响因此全局姿态跳跃例如瞬移不会引入任何伪影。上半身重定向仅依赖于局部旋转。手部重定向。直接将人类五指手势映射到Unitree Dex31手部在远程操作中并不直观因为Dex31仅提供三个手指自由度有限。实际上Dex31手部的功能更接近平行夹爪而非灵巧的多指手因此我们简化了手部映射过程将Dex31视为一个夹爪不再使用手部姿态估计而是通过PICO手持控制器上的按键来控制它。我们定义了两种标准配置打开姿势 q_open 和合姿势 q_close根据人类手部信号计算出一个标量抓取命令 α∈[0,1]其中 α0 表示完全打开α1 表示完全闭合。随后根据信号 q_cmd 通过如下插值计算对于需要用力抓握的任务例如抓取杯子以及需要精细夹持的任务例如折叠衣物我们定义了两组 q_open 和 q_close。颈部重定向。设 Rhead、Rspine 分别为人体头部和脊柱在世界坐标系中的全局旋转它们的相对旋转为从 Rrel[r_ij] 出发机器人的颈部关节目标定义为E. 为低级控制训练通用运动追踪器为了将重定向后的运动学动作应用于真实机器人我们需要一种全身控制器 π_low它以参考运动为输入并输出所需的PD目标。与以往采用复杂师生范式来训练合理全身控制器的研究[1]、[14]、[30]不同我们设计了一种简单的一阶段训练框架用于实现通用运动跟踪。更具体地说我们首先整理了一个由约2万段动作片段构成的人形运动数据集。该运动数据集包括通过GMR[1]、[31]重定向而来的数据7千段以及来自TWIST[1]的原始运动数据集1.3万段。运动数据来源还包括AMASS[32]、OMOMO[33]以及我们内部的动捕数据。这种数据集的混合配置确保了我们的策略能够学习全方位的行走能力。与TWIST[1]中发现的情况类似我们发现从遥操作设备中稍微小部分动作对于弥合领域差距至关重要。我们仅通过PICO采集了73个动作因为这些动作已经覆盖了日常生活中最常见的动作如步行、下蹲和物体操控。随后我们基于这些运动数据集生成奖励监督项。奖励定义为 rrTrackrReg其中 Track 的定义如下其中p_cur 表示机器人实际达到的状态。r_reg 包含正则化项例如对动作变化的惩罚。流式 π_low 通过PPO进行训练主要由两部分组成卷积历史编码器和MLP主干网络。我们发现将历史机器人本体感知信息和历史参考运动压缩成一个紧凑的潜在向量能够显著提升学习效率。F 可扩展的人形数据采集我们现在介绍我们的仿人遥操作与数据。利用上述模块构建的采集系统。以自我为中心的全身遥操作。在遥操作流程中我们从PICO获取实时流式人体动作数据参见第III-C节并将这些人体动作映射为机器人运动指令 p_cmd随后通过Redis[34]将 p_cmd 发送至 π_low参见第III-E节。此外我们的遥操作系统还配置了立体视觉功能该功能基于[26]中实现的自定义着色器可调节瞳距并将焦点设定在约3.3英尺处从而为遥操作员提供深度感知参见图8。立体图像由ZED Mini流式传输至PICO。通过ZMQ以JPEG格式进行处理。仅需一名操作员。一个实用的遥操作/数据采集系统应只需一名操作员即可。近期的全身仿人机器人遥操作系统主要聚焦于展示其功能[1]、[3]、[4]、[11]但其中大多数并未明确说明遥操作会话如何启动和结束。AMO[3] 和 MobileTV[11] 需要两名操作员一名负责上半身另一名负责下半身。TWIST[1] 和 CLONE[4] 仅需一名操作员即可完成机器人的遥操作但还需另一人控制整个流程的开始与结束。我们对PICO的手持控制器进行了编程使演示者能够安全、顺畅地操作整个系统而无需任何协助。这些手持控制器扮演着统一的角色。控制中心将TWIST2打造成单操作员系统人形机器人本身较为脆弱而在设计能够全面控制机器人的系统时这一问题尤为突出。在TWIST2中我们采用运动插值技术实现平稳的状态过渡。例如我们的系统支持通过PICO的原点操纵杆进行暂停当暂停模式结束时我们会从机器人上一姿态插值至当前目标姿态从而避免出现突兀的跳跃。这一设计确保了系统能够长时间安全运行并且在人工操作员感到疲劳时随时停机。系统延迟我们系统的所有模块均以高于50Hz的速率进行数据流传输确保整体延迟低于0.1秒较之前的工作[1]0.5秒延迟显著提升。数据筛选在数据采集过程中我们连续记录各个片段。为了处理这些轨迹我们开发了一款演示轨迹后处理GUI可将长序列分割成多个片段每个片段对应一项已完成的任务。此外我们还通过筛选手段减少空闲动作并剔除失败片段。G. 全身视觉运动策略学习我们利用通过远程操作系统采集的高质量示范数据开发了一种分层视觉运动策略框架如图7所示。本节将详细介绍高层视觉运动策略 π_high 的设计与训练过程。DS 创新与行动空间视觉运动策略贴合于视觉观察和本体感觉信息生成运动指令。视觉输入包括展示了 TWIST2 支持的长时域人形遥操作能力在“Teleop Folding Towels”中操作者通过机器人第一视角引导其完成叠毛巾的连续动作流程在“Teleop Transporting Baskets through Door”中操作者引导机器人搬运篮子并穿过门完成移动操作。图注强调这些任务依靠机器人第一视角视频流、完整全身控制以及单人操作实现。展示了在真实世界中闭环执行的全身视觉运动策略效果机器人在“Autonomous Kick‑T”任务中自主踢动 T 形物体并将其推向目标区域同时在“Autonomous Whole‑Body Dex Pick Place”任务中自主完成全身参与的灵巧抓取与放置并标注了 6 次连续成功抓取。图注强调 TWIST2 通过有效且整体式的全身人形数据采集进一步支撑多样化的自主全身人形移动操作与腿式操作能力。由ZED Mini相机采集的360×640 RGB图像为提高计算效率而降采样至224×224。对于机器人本体感知我们采用历史命令序列 p_cmd而非原始机器人状态 s。这一设计与系统具有两个目的1它将高层策略与低层控制器解耦从而实现模块化训练与部署2通过避免直接依赖于含有噪声的原始机器人状态 s有效缓解了高维系统中的误差累积问题。动作空间由遥操作期间所采用的同一命令向量 p_cmd 构成确保数据采集与策略执行的一致性。所有本体感知输入均经过归一化处理以提升训练的稳定性。DS 创新与行动空间视觉运动策略贴合于视觉观察和本体感觉信息生成运动指令。视觉输入包括由ZED Mini相机采集的360×640 RGB图像为提高计算效率而降采样至224×224。对于机器人本体感知我们采用历史命令序列 p_cmd而非原始机器人状态 s。这一设计与系统具有两个目的1它将高层策略与低层控制器解耦从而实现模块化训练与部署2通过避免直接依赖于含有噪声的原始机器人状态 s有效缓解了高维系统中的误差累积问题。动作空间由遥操作期间所采用的同一命令向量 p_cmd 构成确保数据采集与策略执行的一致性。所有本体感知输入均经过归一化处理以提升训练的稳定性。网络架构。我们采用扩散策略[35]作为整体学习框架利用一维卷积模块对动作序列进行时域建模。该策略通过基于样本的预测[16]、[36]预测出64个动作片段对应于策略执行频率下未来2秒内的动作指令。对于视觉编码我们使用经过R3M[37]预训练的ResNet-18主干网络该网络可从多样化的机器人数据集中学习到鲁棒的视觉表征。数据增强与正则化。为提升所学策略的鲁棒性和泛化能力我们同时应用了状态空间噪声和视觉增强。我们向本体感受输入中注入10%的高斯噪声促使策略更多地依赖视觉观测而非过度拟合精确的状态信息。在视觉增强方面我们采用了包括随机裁剪、随机旋转和颜色抖动在内的全套技术。这些增强手段能够有效提高策略在不同光照条件、相机视角以及视觉变化下的泛化能力。在部署过程中针对可能发生的不同光照条件、相机视角以及视觉变化进行泛化。部署与推理。为实现高效的实时执行经过训练的扩散策略被转换为ONNX格式在单块NVIDIA RTX 4090上可达到20Hz的推理速率。我们以30Hz的频率执行了预测的64步动作片段中的48步从而保持与数据采集频率的一致性。四、实验结果在本节中我们展示了借助TWIST2技术我们能够1远程操控Unitree G1完成长时程、高难度的全身灵巧任务2高效率采集模仿学习数据3让Unitree G1通过自身视觉自主完成全身任务。A. 长时程遥操作TWIST2实现了超长时程的遥操作。我们展示了两项具有代表性的任务这些任务是此前的系统无法完成的见图10。我们发现1以自我为中心的主动感知以及2流畅的全身追踪而非解耦控制是实现此类自然、流畅、长时域、全身运动且可移动任务的关键所在。折叠毛巾。机器人利用自身视角定位毛巾将毛巾移至前方抓取并抖动以展开。随后它用双手捏住毛巾一角将其对折。接着机器人重复这一动作将毛巾依次对折成三折或四折直至达到目标尺寸沿折痕压平定型然后将叠好的毛巾整齐地放置在左侧。整个过程需要对机器人进行精细的全身控制。手腕与手部动作、主动视觉以及全身伸展。目前我们的机器人能够连续折叠3条随机放置在桌面上的毛巾这一能力仅受限于底层电机的可靠性例如电机过热等问题。通过门洞运送篮子时机器人首先通过调整脚部位置来调节自身姿态随后弯腰分别从左侧和右侧拾起篮子。我们随意放置篮子以便遥操作员借助机器人的主动感知功能首先找到篮子的位置。接着机器人靠近门口用手臂推开门穿过门洞并将篮子轻柔地放置到架子上。值得注意的是机器人的所有基础动作均由一名远程操作员通过追踪其下半身动作来完成。B. 高效数据采集我们展示了1TWIST2在收集模仿学习数据方面的有效性以及2我们系统中一些关键设计如何提升数据收集效果。首先我们在表II中展示在20分钟内专家远程操作员可连续采集1约100个成功的双臂拾放操作或2约50次成功的移动拾放操作。其次我们开展了一项用户研究以量化我们数据收集系统的有效性。我们评估了两位用户1一位在使用该系统进行数据采集方面拥有丰富经验的专家以及2一位在测试期间首次使用该系统的新手。由于新手用户可通过实践逐步掌握技能我们让他们优先完整展示系统人手然后逐步移除各项功能以单独评估每个组件的影响。结果表明在所有配置中TWIST2均实现了最短的完成时间和最高的成功率。如图12所示我们观察到几个关键发现1在缺乏立体视觉的遥操作中用户倾向于抓取高于实际物体位置的地方这显著提高了抓取失败率2若缺少颈部模块用户无法感知固定视野之外的物体使得遥操作变得极其挑战3当采用第三人称视角并结合VR透视功能即不具备以自我视角时专家能够以极快的速度采集数据43秒内完成10个回合但这种情况仅限于专家直接站在机器人旁边。对于需要通过自我中心视角进行远程控制的长时程移动操作任务而言这种做法是不可行的。展示了用于训练的示范数据可视化上方分别标注“WB‑Dex Robot View”和“Kick‑T Robot View”对应两类任务的机器人以自我为中心视角画面同时在每一帧下面叠加显示机器人的全身关节姿态序列whole-body joint positions。图注原意是对 WB‑Dex 与 Kick‑T 任务的训练示范进行可视化包含机器人第一视角与全身关节位置。展示了三套已经实物制造出来的 TWIST2 颈部模块TWIST2 Neck 001/002/003的照片。图注原意是我们已经制造了 3 个 TWIST2 颈部表明该颈部结构易于组装并且可以在研究用途上推广普及。C. 全身策略学习结果我们设计了两项任务以展示基于分层视觉运动策略框架的自主成果。我们在图13中可视化了训练数据。全身灵巧抓取与放置WB-Dex。在此任务中机器人会弯腰用灵巧手从货架上拾起一只杯子并将其放入地面上的一个盒子中。我们利用170次人类示范来训练该策略并在图14中报告了成功与失败的比率。我们观察到该策略在大多数情况下都能可靠地抓取到杯子。然而由于杯子非常轻对抓取需要高度精确的控制即使出现轻微的偏差也常常会导致抓取失败。踢T形盒子至目标位置Kick-T。在此任务中机器人利用脚将一个T形绿色盒子踢向地面固定的一个T形目标位置。该策略通过50次演示进行训练。在我们的数据中动作模式保持一致机器人先用左脚踢球然后用右脚向前迈一步以保持平衡。这一设计确保了所学策略能够展现出稳健的踢球行为。我们在图11中可视化了策略的执行过程。在7次试验中该策略成功地将T形盒子运送至目标位置6次。目前该策略仍然多为向前踢尚不具备更灵活的策略例如绕盒子调整踢球角度这些能力规划留待未来的研究工作来实现。C. 全身策略学习结果我们设计了两项任务以展示基于分层视觉运动策略框架的自主成果。我们在图13中可视化了训练数据。全身灵巧抓取与放置WB-Dex。在此任务中机器人会弯腰用灵巧手从货架上拾起一只杯子并将其放入地面上的一个盒子中。我们利用170次人类示范来训练该策略并在图14中报告了成功与失败的比率。我们观察到该策略在大多数情况下都能可靠地抓取到杯子。然而由于杯子非常轻对抓取需要高度精确的控制即使出现轻微的偏差也常常会导致抓取失败。踢T形盒子至目标位置Kick-T。在此任务中机器人利用脚将一个T形绿色盒子踢向地面固定的一个T形目标位置。该策略通过50次演示进行训练。在我们的数据中动作模式保持一致机器人先用左脚踢球然后用右脚向前迈一步以保持平衡。这一设计确保了所学策略能够展现出稳健的踢球行为。我们在图11中可视化了策略的执行过程。在7次试验中该策略成功地将T形盒子运送至目标位置6次。目前该策略仍然多为向前踢尚不具备更灵活的策略例如绕盒子调整踢球角度这些能力规划留待未来的研究工作来实现。五、结论与局限性我们提出TWIST2。这是一种便携式、全方位的无动作捕捉数据采集系统适用于具备全身控制能力的人形机器人。该系统通过将轻量级VR设备与可拆卸颈部装置相结合实现以自我为中心的视觉感知从而支持大规模的数据采集。在此基础上我们还设计了一种分层视觉运动策略使真实人形机器人能够自主完成多样化的全身技能包括全身灵巧操作和Kick-T动作。局限性1通用动作追踪器在处理高速动态运动如短跑时存在困难这是因为快速且复杂的动作难以精准追踪2PICO的全身姿态估计精度低于高成本的动作捕捉系统尤其是在未放置追踪器的肘部和膝部区域这会导致动作质量下降。六、关于扩大人形数据规模的讨论用于研究的机器人例如Unitree G1/R1和 Booster T1/K1——由于不同机型之间的差异所收集的数据难以复用。近期Unitree G1凭借其在性能与成本之间取得的良好平衡已成为一款备受欢迎的选择。现阶段我们主张在尝试扩大数据采集规模之前先对人形机器人的硬件使用进行标准化。在我们的工作中我们采用了Unitree G1平台并强调以自我为中心的视觉对于捕捉达到人类水平的操作数据至关重要。因此我们为G1开发了一种低成本的颈部附加装置该装置可实现自我中心视角的摄像头配置并使基本功能达到大约80%的核心人类能力。实现人形数据采集的民主化。传统上高质量的人形数据集依赖于动作捕捉系统这使得数据采集仅限于动作捕捉工作室和专用设备。我们展示了一种便携且经济高效的方案它能够保留丰富的人体操控能力而不仅局限于全身运动的捕捉。共享人形数据。我们坚信开放的人形数据集应成为未来研究的坚实基础。为此我们已在HuggingFace上公开发布了所有收集的人形数据并在https://twist-data.github.io上提供了可视化工具旨在使我们的数据集能够被社区直接复用并持续扩展。