Motus 模型架构详细分析基于论文 Motus: A Unified Latent Action World Model 与项目源码的综合分析目录Motus 模型架构详细分析目录1. 总体概述2. 整体架构总览3. 三大专家模块详解3.1 视频生成专家 (Video Generation Expert / VGM)3.2 理解专家 (Understanding Expert)3.3 动作专家 (Action Expert)4. Mixture-of-Transformers (MoT) 三模态联合注意力每层计算流程技术实现细节5. 训练与推理机制5.1 Flow Matching 训练5.2 ODE 推理去噪6. 数据金字塔与三阶段训练流水线六层数据金字塔三阶段训练流水线7. 五种建模模式切换8. 关键设计细节与创新点8.1 架构层面8.2 训练层面8.3 数据层面8.4 推理层面9. 参数统计总结附录 A: WAN 自注意力 MoT 修改详解A.1 原生 WAN 自注意力A.2 MoT 修改后的自注意力附录 B: 项目代码结构附录 C: 完整数据流示例 (训练步)附录 D: 关键超参数汇总1. 总体概述Motus 是一个统一的潜在动作世界模型(Unified Latent Action World Model),由清华大学机器学习研究组(thu-ml)提出。其核心理念是:通用具身智能体应当作为一个统一系统运行,而非由理解、世界建模和控制等孤立模型拼凑而成。Motus 通过以下关键创新解决了当前方法的碎片化问题:Mixture-of-Transformers (MoT)架构,将三个专家模块整合到统一的自注意力框架中UniDiffuser 风格的调度器,支持在多种建模模式之间灵活切换利用光流(Optical Flow)学习潜在动作(Latent Actions),提取像素级 “delta action”三阶段训练流水线+六层数据金字塔,实现大规模动作预训练实验结果表明,Motus 在仿真环境中比 X-VLA 提升 15%,比 π₀.₅ 提升 45%,在真实场景中提升 11%~48%。2. 整体架构总览Motus 由三个核心专家模块组成,通过30 层统一的 MoT 联合自注意力层进行深度融合:输出层输出头MoT 三模态联合层 ×30编码器层输入层[B, 48, T', H', W']首帧图像First Frame[B, C, H, W]目标视频帧Video Frames[B, T, C, H, W]机器人状态State[B, 14]动作序列Actions[B, T×4, 14]语言指令LanguageVLM图像VLM ImagesWAN VAE(Wan2.2-VAE)Patch Embedding48 → 3072D状态编码器StateEncoder动作编码器ActionEncoderT5 文本嵌入(预编码)Qwen3-VL 嵌入(冻结)三模态联合自注意力WAN Self-AttnVideo + Action + UnderstandingWAN 交叉注意力Video ← T5 TextVideo FFN(AdaLN调制)Action FFN(AdaLN调制)Understanding FFN(LayerNorm)Video Head+ UnpatchifyAction Decoder(含Register令牌)预测视频帧Predicted Frames[B, T, C, H, W]预测动作Predicted Actions[B, T×4, 14]Action Tokens[B, seq, 1024D]Understanding Tokens[B, seq, 512D]下一层3. 三大专家模块详解3.1 视频生成专家 (Video Generation Expert / VGM)基础模型: Wan2.2-TI2V-5B(约 50 亿参数)核心组件: