在一个日常家庭早晨闹钟响起客厅一片狼藉拖鞋不知去向、碗筷未洗、孩子书包散落、猫咪打翻了水杯……如果此时有一个“24小时保姆”已悄然收拾妥当、甚至倒好温度适宜的水这是否会让生活瞬间美好然而自变量机器人创始人兼CEO王潜直言“在全球范围内目前没有任何一台机器人能在无遥控、无预编程的情况下独立完成这样的家庭任务。”作为一家接连被字节、阿里、小米、美团等互联网巨头投资的具身智能团队如今估值已经超百亿的独角兽自变量机器人今天在北京召开了一场发布会在发布会现场王潜就具身智能当下行业现状进行了一次公开揭秘现在的跳舞机器人舞蹈动作都是提前编好的程序或者遥控操作每一个动作都是预设的轨迹它看起来很酷但其实不知道自己在做什么展会上看到的很多智能机器人绝大部分是靠背后遥控操作进工厂的机器人和进家庭本质上是两件事工厂里一个动作重复1万次家庭里每个动作做1万次每次都不一样……之所以会出现这种情况王潜指出现在的机器人的硬件已经发展到位但是大脑没有跟上。而这次自变量机器人要发布的正是一个具备零样本学习能力的具身智能基础模型以及他们的机器人家庭落地计划。01 VLA、世界模型需要统一架构谈到人形机器人行业往往习惯将其与人类进行对比而视觉能力、工具使用能力、语言交互能力是人类进化而来的能力机器人同样需要这样的能力VLA是具身智能行业看到的打造这一系列能力的技术路径。不过自变量机器人CTO王昊在发布会上指出如今的VLA模型普遍受困于模块化架构视觉模块贴标签认出杯子却不知把手朝向、是否盛水动作模块依赖预设轨迹语言模块仅懂固定指令无法理解意图。由此带来的结果是VLA模型只能“模仿”并不能真正“理解”真实世界实验室表现完美的具身模型真实进入用户家庭中后就会瞬间崩溃。正因如此王昊指出“模仿”已经成为全世界都在做的VLA模型的天花板。那么下一代具身智能基础模型应该具备怎样的能力呢王昊认为下一代具身智能基础模型需要具备三项能力理解世界能够感知世界并理解世界的物理规律举一反三不用每个动作都需要人来教内心强大在真实环境中坦然面对失败并能重新学习、持续学习。实际上具身智能行业也正是看到了这样的行业困境VLA世界模型的组合在2026年开始流行起来。不过王昊认为世界模型不是一个单独的模块本质上是一种能力是一种对物理世界预测的能力不能直接挂载到一个VLA模型上而是需要一个融合的架构就想XPU计算架构一样。这也正是自变量机器人这次发布的WALL-B模型的独特性所在。王昊指出“自变量机器人是将视觉、语言、动作、预测放到了同一个网络中训练这也就是我们提出的世界统一模型架构。”基于世界统一模型架构的模型避免了以往视觉模块学到了丰富的信息因为传输过程中的数据损耗问题传输到视觉模块只剩下一个模糊的轮廓而WALL-B是全球首个基于世界统一模型架构的具身智能基础模型。据王昊透露基于世界统一模型架构WALL-B有三大特点首先原生多模态。传统机器人视觉、语言、触觉是“拼接”而来信息层层转述丢失严重WALL-B从底层实现“原生多模态”视觉、语言、触觉、动作天生一体无需借用外部模块。在执行任务过程中它不仅能认出杯子还具备部件级理解能力——能够理解水杯的把手位置、开口方向、材质、含水量同时支持力反馈与传感器融合拿鸡蛋知轻、拎水壶知重。与此同时它还具备“原生本体感”机器人无需观察自身全身即可精准感知身高、体宽、手臂伸展范围这种空间感让它具备了像人类一样自然行动的基础。其次原生具备“世界观”即对物理规律的原生理解能力。人类无需教导就知道桌边的盘子可能会掉下来这是因为我们知道重力、惯性、摩擦等物理规律的存在。WALL-B通过世界统一模型架构同样学习了这些规律而非被告知它能预测未见过的场景想象悬空盘子掉落轨迹、预测猫咪跳下沙发的后果。这种“想象力”源于对世界的因果建模也因此让WALL-B具备了零样本泛化的能力。第三与世界的主动交互与自我进化能力。现有的具身模型普遍“玻璃心”失败一次就停止运行完全依赖工程师重新训练数据WALL-B则像人类婴儿一样会通过反复尝试调整参数直到成功完成一个任务在完成这个任务后这样的成功经验也会被内化到模型中从而真正实现了在真实环境中“边做边学”。与此同时WALL-B所有经验以原生多模态记忆方式更新克服了基于transformer架构的具身模型无法做记忆内化的问题。正是基于自变量机器人提出的世界统一模型架构WALL-B具备了这三大特性拥有了走入复杂家庭环境的可能。02 自变量机器人的家庭落地计划在具身智能经历了这几年快速发展后数据已经成为行业发展瓶颈也成为这一行业“最大的秘密”。自变量机器人内部将具身数据分为两类糖水数据和牛奶数据。所谓糖水数据指的是在环境干净、灯光稳定、桌面固定、无猫无孩、无任何不可预测变量的实验室中采集到的数据这类数据量大可控却像糖水——甜但不会增加抵抗力基于这些数据训练的具身模型就像在泳池中学习游泳的人类一样无法在大海中游泳。更重要的是基于实验室数据训练出的模型难以具备零样本泛化能力因为现实家庭永远是“新环境”——100个家庭有100种杯子、1万种组合灯光、地毯摩擦力、玩具位置、猫咪轨迹各不相同。牛奶数据指的是基于嘈杂、复杂的家庭环境的真实数据这种环境中的数据充满了随机性但这类数据采集成本高、获取数据难、数据量少。采用牛奶数据训练模型是王昊认为真正训练出具备零样本泛化能力的具身智能基础模型必然要走的路径。正因如此自变量机器人团队进入了超过100个志愿者家庭中训练模型而WALL-B正是基于“实验室数据打底、真实环境数据提质”的策略下训练而出的一个具身智能基础模型。那么这样一个基于WALL-B模型的具身机器人何时能够进入用户家庭中呢在发布会最后王潜给出了自变量机器人的deadline2026年5月25日新一代部署了WALL-B模型的机器人将会进入家庭。在发布会上王潜还公布了首批家长招募计划王潜希望通过这一计划试着让硅基智能体开始成为家庭中的一员。不过王潜也指出现在基于WALL-B的机器人仍然是一个处于婴儿时期的“实习生”当它进入家庭中面临大量随机环境时依然需要自变量机器人团队来进行远程帮助帮助它完成一些复杂的操作任务。而这样每天都会在家庭环境中产生数据、自我进化的机器人也将会是具身机器人进入家庭的第一步。