【论文阅读】MEM: Multi-Scale Embodied Memory for Vision Language Action Models
快速了解部分基础信息英文1.题目: MEM: Multi-Scale Embodied Memory for Vision Language Action Models2.时间: 2025.043.机构: Physical Intelligence, Stanford University, UC Berkeley, MIT4.3个英文关键词: VLA, Memory, Video Encoder1句话通俗总结本文干了什么事情本文提出了一种名为MEM的多模态记忆架构通过结合短时视觉记忆和长时语言记忆解决了机器人模型在处理长达十几分钟的复杂任务时的记忆与效率平衡问题。研究痛点现有研究不足 / 要解决的具体问题现有VLA模型大多无记忆或仅依赖密集的历史观测导致在面对长周期、多步骤的复杂任务如烹饪、清洁时无法兼顾长期语义记忆如“已加过盐”和短期视觉细节如防遮挡且计算成本过高难以实现实时推理。核心方法关键技术、研究设计简要采用“双轨制”记忆设计利用高效的视频Encoder处理秒级的密集视觉帧短时记忆同时利用语言摘要机制记录和更新任务进度的文本描述长时记忆两者结合使模型既能处理细节操作又能记住宏观进度。深入了解部分作者想要表达什么作者旨在证明单一模态的记忆形式如仅靠图像或仅靠文本无法有效解决机器人在开放世界中的长程任务需求通过将视觉的“空间细节”与语言的“语义压缩”在不同时间尺度上解耦并结合可以在不牺牲推理速度的前提下极大提升机器人的任务完成能力和对错误的上下文适应能力。相比前人创新在哪里创新点在于多模态与多尺度的结合不同于前人仅使用图像历史或简单的Keyframe抽帧本文明确区分了短时视频流和长时语言流记忆并设计了无需额外参数的视频Encoder基于ViT修改Attention机制以及具备压缩能力的语言记忆更新机制解决了长视频输入的计算瓶颈和长文本记忆的分布偏移问题。解决方法/算法的通俗解释把机器人的记忆比作人脑短时记忆就像“眼前几秒的画面回放”用来防手遮挡物体或纠正抓取动作用视频Encoder压缩处理长时记忆就像“脑子里的任务清单”记的是“步骤A已完成”用语言模型生成摘要。两者互不干扰共同工作。解决方法的具体做法短时视觉记忆修改ViT的Attention层每隔几层加入时间维度Attention将过去几秒的视频帧压缩编码输入到VLA Backbone。长时语言记忆训练一个高层策略网络根据当前观察和旧记忆生成新的语言摘要如“已拿盘子放入碗”自动压缩冗余信息。整合将压缩后的视频特征和语言摘要同时输入π0.6 VLA模型指导动作生成。基于前人的哪些方法基于π0.6 VLA模型Base Model借鉴了ViT的架构参考了Space-Time Separable Attention视频理解领域的思想来设计视频Encoder利用了Gemma3-4B作为基础VLM。实验设置、数据、评估方式、结论在包含烹饪准备食材、清洁厨房长达15分钟等长程任务上测试使用π0.6作为基准对比了无记忆、平均池化记忆、仅本体感知记忆等变体评估指标为任务成功率。结论MEM显著提升了长程任务成功率且能利用短时记忆纠正抓取错误In-Context Adaptation优于单一模态记忆方案。提到的同类工作RT-2, Octo, PaLM-E, Fast, Gemini Robotics, Gr00t n1, VideoMamba, SAM2ACT, CronusVLA, OneTwoVLA.和本文相关性最高的3个文献[1] π0.5: a vision-language-action model with open-world generalization, 2025.[2] Is space-time attention all you need for video understanding? , 2021.[3] Palm-e: An embodied multimodal language model.我的分为2个模型一个负责输出记忆纯语言一个负责接收subtask prompt。