【自变量发布新一代机器人进家庭计划】4月21日自变量机器人举行发布会推出新一代机器人进家庭计划。一个月后的机器人将搭载新一代自研具身智能基础模型WALL - B 。这是全球首个基于世界统一模型架构World Unified ModelWUM 的具身智能基础模型标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。【WALL - B技术解读与家庭入驻计划】自变量创始人兼CEO王潜 、联合创始人兼CTO王昊全面解读了WALL - B的技术架构 、数据策略和训练机制等并宣布35天后搭载WALL - B的新一代机器人将首批入驻真实家庭 开启机器人服务家庭生活的成长之旅。【家庭场景具身智能的“考场”】家庭场景是具身智能真正的“考场”。王潜以“早上七点 闹钟响了 。你从床上爬起来走到客厅 。拖鞋不知踢到哪里厨房的碗还没洗孩子的书包扔在地上猫打翻了一杯水”这一日常描述开场直观揭示了家庭环境的本质——随机 、碎片 、不断变化 。目前全球没有任何一台机器人可以在无遥控操作的情况下独立完成上述场景中的综合整理任务这与公众的普遍认知形成反差。舞台上的后空翻 、跳街舞 、写毛笔字等机器人演示虽视觉冲击力强但本质是预设轨迹的“命令行机器人”每一个动作都经过预先编程或遥控操作。工厂中已部署的工业机器人也不构成可比案例工厂环境下一个动作可重复一万次且每次条件相同而家庭中一万个动作每个可能只做一次每次环境条件都不同。当前机器人的核心瓶颈不在本体而在智能家庭环境中的随机性和碎片化是现有技术无法处理的机器人进入家庭被视为“这个时代最难的技术问题之一”。【从WALL - A到WALL - BVLA架构的局限与突破】自变量机器人从成立之初便聚焦于为机器人构建“大脑” 即端到端的具身智能基础模型 。2024年底公司发布基于VLA视觉 - 语言 - 动作架构的第一代具身基础模型WALL - A25年9月将同样思路架构下的轻量化模型版本WALL - OSS开源。自变量与58同城合作将搭载WALL - AS模型的机器人送入真实家庭与保洁阿姨协同作业 实现全球首次机器人进入家庭并服务人类复杂的家居生活这也是首次机器人在C端复杂环境的大规模落地。正是这些真实家庭的部署让团队看到了VLA架构的“天花板” 。王昊解释道VLA架构本质上是三个独立模块的拼接数据在模块之间逐级传递会发生信息损耗和延迟且VLA模型只能模仿训练数据中的轨迹无法真正理解物理世界的规律。WALL - B是对这一困局的回应它是一次从底层架构到训练范式的全面重写。【世界统一模型WUM从“VLA”到“统一整体”】WALL - B真正区别于行业其他方案的核心是其从VLA到WUM的架构革命。该架构的设计思路类似于Apple Silicon的统一内存架构在苹果M1芯片之前的Mac上CPU 、GPU 、 内存各自独立数据搬运产生的延迟和损耗成为性能瓶颈苹果通过统一内存架构让所有处理单元共享同一块内存性能大幅提升。在机器人领域VLA就类似于M1之前的笔记本电脑架构视觉模块 、语言模块 、动作模块各自为政数据在模块之间搬来搬去会丢信息。WALL - B采用的WUM核心理念是将视觉 、语言 、动作 、物理预测等所有能力放在同一个网络中从零开始联合训练 、融为一体消除模块间的边界和数据搬运损耗。基于这一架构WALL - B实现了三项区别于行业现有模型的核心技术特征。第一原生多模态。WALL - B从训练第一天起即对视觉 、听觉 、语言 、触觉 、动作等多模态数据进行同步标注与联合训练实现“ 多模态进 、多模态出” 这意味着模型不需要通过“传话” 的方式在不同模块间转译信息它看到杯子的同时就已经在准备伸手感觉到重量的同时就已经在调整力度。这种架构还首次赋予了模型一种被称为“ 原生本体感 ” 的能力WALL - B无需持续观察自身全身或依赖大量外部传感器即可内在地感知自身的空间尺寸如高度 、宽度 、手臂伸展范围并判断能否通过某个空间或触及某个物体 这是一种内生的空间感知能力而非通过外部测量或建模获得王昊指出这一点甚至许多动物都不具备。第二物理世界的“世界观”。WALL - B能够感知并预测重力 、惯性 、摩擦力 、速度等基本物理规律 。在从未见过的场景中例如一个盘子一半悬空在桌沿外模型可以推断出盘子掉落摔碎从而采取预防动作。这种对物理规律的理解为零样本泛化提供了基础 日常生活中物理规律在不同环境中均保持一致WALL - B在任何一个它从未去过的家庭中都能利用对基本物理常识的理解来应对新场景不需要针对每个家庭重新训练。第三 与世界交互并自我进化。这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流机器人在任务失败后通常直接停止返回错误信息无法从失败中学习 。WALL - B的行为模式则不同它在失败后会调整策略再次尝试如果成功则将这次成功的经验直接更新到模型参数中。这种机制使模型在真实环境中完成自我迭代无需工程师重新训练 、无需人工注入新数据 、无需返回实验室 。王昊将其类比为人类学习使用筷子的过程WALL - B克服了Transformer架构难以进行长期内化记忆的问题所有经验以原生多模态记忆的方式通过类似人脑记忆的机制实现自我更新。【数据策略从“糖水”到“牛奶”】目前行业内大多数训练模型的数据来自实验室王昊将这类实验室数据比喻为“糖水数据”干净 、可控 、量大但与真实世界差距显著尤其与家庭中随时变化的自然光 、随意摆放的物品 、孩子和宠物的随机动作完全不同 用这类数据训练出的模型在真实环境中会迅速失效。与之相对的王昊比喻为“牛奶数据” 即真实家庭环境中采集的嘈杂 、多变 、充满随机性的数据也是自变量选择的数据道路。为了获取这类数据 自变量团队进入了数百个志愿者的真实家庭进行模型训练 。每一户家庭的布局 、灯光 、物品摆放和混乱程度各不相同这些变量在实验室中无法模拟但却是家庭环境中的日常是模型必须学会应对的真实条件。综合来看 自变量的数据策略可总结为实验数据打底真实场景提质 。实验室数据用于建立基本能力真实家庭数据用于让模型学会在不确定环境中生存 真实随机 、不可预测的现实数据所驱动的数据飞轮才是真正的壁垒。【35天后新一代机器人入驻真实家庭】机器人进入家庭的同时隐私问题不容回避 。王潜对此给出了自变量团队明确的解决方案视觉脱敏机器人在设备端对原始图像进行实时打码处理原始图像不离开设备机器人看到的已经是去除个人特征的场景数据透明授权用户主动按下同意键后方可开机不存在“默认同意”用户不同意则不开机 用途限定绝不共享第三方机器人只认一个主人发现可疑指令立即锁定。王潜明确表示“承诺是便宜的用户信任才是最贵的 ”。在商业化落地方面 自变量的时间表也已经明确35天后新一代搭载WALL - B并根据家居环境进行硬件升级的新一代机器人将入驻首批用户的家庭。王潜指出当前模型仍处于“实习生”阶段会犯错需要远程协助但其能够实现24小时不间断工作且每工作一天都会因新数据的产生而变得更“聪明”。从即日起 自变量开始招募首进家庭机器人的家长用户可通过官方渠道提交申请。【结尾展望】具身基础模型的持续进步是自变量成立以来一直追求的目标 。为机器人打造一个能够真正理解世界 、并在真实世界中持续学习的机器人大脑进入家庭服务人类每一天是自变量机器人的长久愿景。尽管进入家庭的机器人现在还很笨走得很慢经常犯错 但就像人类从婴儿时期迈出的第一步每一个伟大的旅程都是从踉踉跄跄的第一步开始的 如今机器人已经在最复杂的地方开始了它学习和进化的征程 。模型一直在迭代WALL - B的具体细节及生态基座将于4月27日在深圳举办的首届广东省人工智能应用对接大会上全面亮相。机器人能否在家庭场景中持续进化不断提升服务能力呢