WAM-202512：Motus架构分析【MoT、UniDiffuser 风格的调度器支持在多种建模模式之间灵活、利用光流（Optical Flow）学习潜在动作（Latent Actions）】

张

张建站

2026/5/4 8:37:27

10分钟阅读

WAM-202512：Motus架构分析【MoT、UniDiffuser 风格的调度器支持在多种建模模式之间灵活、利用光流（Optical Flow）学习潜在动作（Latent Actions）】

Motus 模型架构详细分析基于论文 Motus: A Unified Latent Action World Model 与项目源码的综合分析目录Motus 模型架构详细分析目录1. 总体概述2. 整体架构总览3. 三大专家模块详解3.1 视频生成专家 (Video Generation Expert / VGM)3.2 理解专家 (Understanding Expert)3.3 动作专家 (Action Expert)4. Mixture-of-Transformers (MoT) 三模态联合注意力每层计算流程技术实现细节5. 训练与推理机制5.1 Flow Matching 训练5.2 ODE 推理去噪6. 数据金字塔与三阶段训练流水线六层数据金字塔三阶段训练流水线7. 五种建模模式切换8. 关键设计细节与创新点8.1 架构层面8.2 训练层面8.3 数据层面8.4 推理层面9. 参数统计总结附录 A: WAN 自注意力 MoT 修改详解A.1 原生 WAN 自注意力A.2 MoT 修改后的自注意力附录 B: 项目代码结构附录 C: 完整数据流示例 (训练步)附录 D: 关键超参数汇总1. 总体概述Motus 是一个统一的潜在动作世界模型（Unified Latent Action World Model），由清华大学机器学习研究组（thu-ml）提出。其核心理念是：通用具身智能体应当作为一个统一系统运行，而非由理解、世界建模和控制等孤立模型拼凑而成。Motus 通过以下关键创新解决了当前方法的碎片化问题：Mixture-of-Transformers (MoT)架构，将三个专家模块整合到统一的自注意力框架中UniDiffuser 风格的调度器，支持在多种建模模式之间灵活切换利用光流（Optical Flow）学习潜在动作（Latent Actions），提取像素级 “delta action”三阶段训练流水线+六层数据金字塔，实现大规模动作预训练实验结果表明，Motus 在仿真环境中比 X-VLA 提升 15%，比 π₀.₅ 提升 45%，在真实场景中提升 11%~48%。2. 整体架构总览Motus 由三个核心专家模块组成，通过30 层统一的 MoT 联合自注意力层进行深度融合：输出层输出头MoT 三模态联合层 ×30编码器层输入层[B, 48, T', H', W']首帧图像First Frame[B, C, H, W]目标视频帧Video Frames[B, T, C, H, W]机器人状态State[B, 14]动作序列Actions[B, T×4, 14]语言指令LanguageVLM图像VLM ImagesWAN VAE(Wan2.2-VAE)Patch Embedding48 → 3072D状态编码器StateEncoder动作编码器ActionEncoderT5 文本嵌入(预编码)Qwen3-VL 嵌入(冻结)三模态联合自注意力WAN Self-AttnVideo + Action + UnderstandingWAN 交叉注意力Video ← T5 TextVideo FFN(AdaLN调制)Action FFN(AdaLN调制)Understanding FFN(LayerNorm)Video Head+ UnpatchifyAction Decoder(含Register令牌)预测视频帧Predicted Frames[B, T, C, H, W]预测动作Predicted Actions[B, T×4, 14]Action Tokens[B, seq, 1024D]Understanding Tokens[B, seq, 512D]下一层3. 三大专家模块详解3.1 视频生成专家 (Video Generation Expert / VGM)基础模型: Wan2.2-TI2V-5B（约 50 亿参数）核心组件:

TranslucentTB 故障排除终极指南：从诊断到预防的完整解决方案

TranslucentTB 故障排除终极指南：从诊断到预防的完整解决方案【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 你的Windows任务…...

2026/5/4 8:36:55 阅读更多 →

3步完成Degrees of Lewdity视觉大升级：DoL-Lyra美化整合包终极指南

3步完成Degrees of Lewdity视觉大升级：DoL-Lyra美化整合包终极指南【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 你是否对Degrees of Lewdity的原版像素画面感到审美疲劳？想…...

2026/5/4 8:35:54 阅读更多 →

ADIS16470数据精度全解析：从16位Burst到32位寄存器读取，哪种方式更适合你的项目？

ADIS16470数据精度全解析：从16位Burst到32位寄存器读取的技术选型指南在惯性测量单元(IMU)的应用开发中，数据采集方式的选择往往决定了整个系统的性能上限。ADIS16470作为一款工业级IMU传感器，提供了Burst读取和寄存器读取两种截然不同的数据…...

2026/5/4 8:25:36 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/4 9:12:02 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/4 9:12:04 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/4 9:12:06 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/4 9:12:09 阅读更多 →