目录前言内容前言这周主要细看《PLANNING WITH AN EMBODIED LEARNABLE MEMORY》以下简称EPMEPM这篇论文主要是一个可学习记忆直接输出文本化的环境表示物体列表、坐标、描述大语言模型可以直接读懂这个记忆无需中间查询VLM能够对记忆进行ADD、UPDATE、Remove、No update 四个操作我的想法主要是让EPM作为一个高层的规划器通过用户输入的自然语言指令比如去客厅沙发旁边的茶几上拿遥控器EPM可解析指令中的目标物体和空间约束生成子任务序列先导航到客厅在到沙发再到茶几最后寻找遥控器然后将EPM的文本查询转换为CUS能理解的特征向量在CUS地图中检索坐标最后执行导航动作并更新EPM的内部记忆。内容EPM 直接生成描述实体及实体间关系的文本可与大语言模型规划器无缝集成短时序规划可通过将当前场景转换为目标图像或利用可微场景表征实现但长时序上下文特征规划最常用方法是借助预训练大语言模型通过大语言模型生成查询、余弦相似度匹配位置而EPM采用的是后一种思路直接将模型生成的描述文本输入大语言模型上下文EPM的定义动作averbargsverb为高层动词args为实体ID列表。完整的动作空间如下1、Navigate(id)导航至实体 id 附近距离 1.5m2、Open(id)打开可打开实体柜门、抽屉3、Close(id)关闭可打开实体4、Pick(id):抓取实体id物体5、Place(id_target, id_receptacle)将 id_target 放置到 id_receptacle家具 / 容器6、Explore()随机探索未知区域7、Done()任务完成动作失败的条件Navigate目标不可达、被遮挡Open/Close实体不可打开、已开 / 关Pick物体太远、被遮挡、已被抓取Place容器已满、位置无效系统架构采用的是双层控制架构首先是感知层EPM感知层是输入RGB-D位姿输出一个更新状态进而维护环境状态然后是高层规划器LLM输入一个任务指令和环境状态进而输出高层动作。最后是技能层输入高层动作和原始观测输出低层控制对于高层规划器的训练EPM主要是用两种方式获取数据一是将模拟环境中的人类操作演示数据转换为机器人兼容规划轨迹二是采用全新在线强化学习方法利用环境交互经验优化规划器对于人类操作演示数据在模拟环境中回放人类遥操作轨迹同时实时运行感知模块生成适配当前感知系统的规划轨迹无需为不同感知系统单独采集演示数据采用 LoRA胡等人2022微调大语言模型完成训练。核心流程是1、推到探索目标需探索那些家具2、采样探索动作探索次数3、将物体信息注入EPM移除无法推进任务的交互步骤并生成实例轨迹关于EPM工作在哪个环境跑根据论文是仿真和真机两者都有仿真平台是HabitatMeta的具身智能仿真平台数据集来源于PARTNR benchmark 和HSSD一共12个验证场景10w个训练集1000个验证集真机配置上机器人选择的是Spot robotBoston Dynamics的四足机器人测试环境是室内公寓约155平方米数据集来源于Spot-indoor30个交互序列一共1100帧每段序列中目标与干扰物体在不同容器间重新放置半数序列中人类也会改变环境对于算力要求原文中并没有明确给出算力要求只能根据他们使用的模型做了推测实际情况可能会有变化1、视觉语言模型EPM用的是LLaVa-OneVision-7B算力大概是16-24GB显存该模型用LoRA微调2、大语言模型用的是Llama3.3-70B零样本或者Llama3.1-8B微调过后的70B应该需要多张卡约140B8B约16B他们对比了两种8B微调后的模型在功率上超过了70B的零样本模型并且参数小了近九倍这个其实告诉我们不需要盲目追求大模型训练数据比模型规模更重要3、训练用的是LoRA和DDAFT单卡24GB训练没有进行微调