小马智行世界模型进化史,PonyWorld方案解析......
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线编辑 | 自动驾驶之心自动驾驶前沿信息获取→自动驾驶之心知识星球自从18年世界模型开始进入大众视野以来已经逐渐烟花成“学习环境规律 — 推演未来 — 再优化策略”的通用框架。放到自动驾驶里这条路线的价值不言而喻。车辆的自动驾驶是一个强交互、强安全约束的连续决策问题。单纯依赖人类驾驶数据往往只能学到“模仿”。也正是在这个脉络下业内开始转向VLA和世界模型。小马在上周发布了自己的世界模型框架PonyWorld 2.0它把世界模型做成了一套贯穿云端训练与车端部署的物理AI引擎。一方面强调对世界和交通交互的高精度建模另一方面加入自我诊断、定向采集和难例聚焦的训练能力。换句话说小马智行想做的已经不只是“让AI学会开车”而是让AI知道自己哪里还不会开并推动系统自我演进。01.自动驾驶比下围棋难很多整整十年前的2016年3月通过自我对弈进行强化学习的AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋手李世石成为第一个不借助让子而击败围棋职业九段棋手的围棋AI立下了人工智能行业的里程碑。AlphaGo成功地让世界看到了AI的潜力带来了AI产业的爆发很多科技巨头进行战略转向开始押注人工智能包括小马智行在内的很多AI公司也成立于2016年。当时业界有人乐观地认为通过人工标注的数据AI可以拥有人类的感知能力从而即将很快地实现人类的驾驶能力实现L4级自动驾驶。然而开车远比识别照片里的猫要复杂一方面图像识别的成功率99%已经足够好、足够商用但1%的错误在L4级自动驾驶场景中意味着闯红灯、碰撞意味着违章与事故是完全不可接受的——尤其是人开车犯错不是新闻但AI开车犯错一定是新闻公众对于AI司机的要求是显著高于人类司机的。另一方面开车是与周围交通参与者强交互的场景并不是简单的遵循一些特定的规则——哪怕感知结果绝对准确最终的驾驶决策和行为也不一定能足够的安全、丝滑。因此直到2019年行业内也并没有企业能做到真正在公开城市道路实现完全无安全员的、有一定规模车队的自动驾驶。为何要强调“有一定规模”因为规模才代表着统计学上的安全性足够高。少数车辆能无安全员上路可以靠赌概率、拼运气只有规模化车队能批量上路且并不会经常出事故才能证明系统整体上的安全性才能证明统计上安全性足够高。两条路线的分叉模仿学习 vs 强化学习这时行业内对于如何实现真正的无人驾驶开始有明显不同的技术发展路线部分企业强调收集更多的人类驾驶数据从而提升模型性能通过“影子模式”收集海量人类驾驶数据尤其是人类与AI行为有差异的数据很像后来大语言模型的scaling law “大力出奇迹”通过更多驾驶数据来覆盖长尾场景等待“aha moment”的到来。而小马智行选择了另一条路因为小马智行的技术团队在那时已经意识到开得和人不一样不代表开得不对、而开得“很像人”但仍有细微差异的行为可能是大错特错的L4级自动驾驶的目标不应该是跟人的决策与行为做对比目标应该是单纯的“开得好”——具体来说是统计意义上的安全性、舒适性、通行效率足够高。并且由于L4级自动驾驶是无法靠人类兜底和接管的与L2/L2辅助驾驶有本质不同哪怕99.99%的场景已经开得比人好剩下的0.01%如果开得危险也是依然是不可接受的。对L4级自动驾驶来说堵住模型的下限和突破模型的上限一样重要这与大语言模型偶尔“幻觉”一下的损害完全不同与L2级辅助驾驶责任永远在驾驶员也完全不同。而一旦模型的学习目标从“像人开得一样”变成“开得好”这意味着一种范式的变化——从模仿学习到强化学习。AlphaGo在棋盘上自我对弈实现强化学习以“获胜”为学习目标增强棋艺而非“下得像人”。小马智行从2020年起花数年时间逐步完善了能让AI通过强化学习增强模型开车能力的这套体系使AI可以在“虚拟驾校”中反复开车、训练车端模型的驾驶能力这也就是如今我们所说的“PonyWorld世界模型”。02.世界模型是什么如何提升精度不是逼真的游戏引擎而是一整套体系两种技术方向在过去的若干年一直是并行发展但到2024-2025年Waymo、小马智行等头部企业先后在多个城市开展了大规模的无人驾驶Robotaxi车队商业化运营行业内也逐步意识到单纯地增加人类驾驶数据无法无限提升自动驾驶的模型能力L2级辅助驾驶不能靠收集人类驾驶数据持续不断提升安全性变成L4级无人驾驶越来越多的企业包括做辅助驾驶的算法公司、车企开始将技术路线切换到强化学习和世界模型方案。在2026年必须通过强化学习、世界模型仿真训练环境才能实现满足L4级要求的自动驾驶已经成为中美行业共识小马智行无疑走在了前面。然而行业内很多企业和公众将世界模型简单的理解为可以生成虚拟数据的仿真环境仿佛一个足够逼真的游戏引擎就能教会AI开车。而小马智行的世界模型从来就不是一个单一模块而是一套贯穿云端与车端的完整体系从2020 年开始构建逐步实装每一层都已经在真实的量产系统里运转要能定义什么是“开得好”也就是强化学习的奖励函数——这不是一些简单的规则可以定义的本身也需要是神经网络训练的。对物理世界的建模足够精准包括能精准体现自车车辆的运动学模型和周围交通参与者的运动学模型。最重要的是自动驾驶是强交互的世界模型不仅需要能生成corner case的数据还能让长尾场景乃至所有虚拟场景中的交通参与者与AI司机自车之间有符合人类行为分布的交互能力。比如当 AI 开的车突然变道而隔壁车道有车隔壁车道的行为会被 AI 的行为所影响有一定概率减速避让也有一定概率加速博弈不给 AI 留变道空间。这些行为的不同概率的分布都应该能体现在世界模型生成的场景中。精度决定一切世界模型好不好看AI会不会“越学越错”只有当世界模型做到了这三点当然每一项都很难才能足以让AI司机可以在这个环境中得到正向的训练结果否则AI模型的驾驶能力可能是在虚幻的场景中“自嗨”、越学越错甚至还不如引入海量人类驾驶数据的模仿学习。而这个世界模型“模拟世界”的能力我们称其为“精度”。当初版世界模型上线、其训练的车端模型也上车之后随着世界模型精度的提升持续训练的强化学习车端模型也会跟随者提升性能。提升小马智行自动驾驶能力的过程本质上变成了提升世界模型精度的过程。在过去的几年我们先后通过几个方面的努力来提升精度。收集“高端对弈局”来提升世界模型精度如前文所说世界模型需要能模拟其他交通参与者对AI的反应——这是个很有趣的问题当AI不再通过模仿学习而是通过强化学习来提升驾驶能力其仿真环境依然需要模仿人类或AI对于AI司机的交互与博弈。因此世界模型不仅要能模拟人和人之间的交互还需要能模拟人和AI之间的交互尤其是当AI司机的开车行为并不完全“像人”的时候这就更加重要。人会如何对特定能力的AI司机做出反应这个行为并不能凭空遐想只有让AI司机上路才知道。因此世界模型精度的提升与对齐最核心的是需要AI司机实际路测——收集的并不是普通的人类驾驶数据而是AI司机的驾驶数据。当AI的能力尤其是安全性已经超过人类那只有AI司机的驾驶数据可以用于提升世界模型了因为其他交通参与者对AI司机的反应会与对其他人类不同只通过人类驾驶数据训练的世界模型永远缺失这块最重要的精度数据。从小马智行历史数据来看其安全性提升最快的年份并不是开始无安全员路测之前的那段时间而是有一定规模的全无人的测试车上路后。因为那时候的AI司机已经超越人类水平收集到的数据可以更好的提升世界模型的精度从而进一步提升车端模型的能力。世界模型的数据飞轮高精度模型和高精度数据互为促进到了这一步一个更深层的结构性壁垒就浮现出来了。当 AI 的驾驶能力已经超越了普通人类司机之后人类的驾驶数据就不再能有效提升世界模型的精度了。这就好比让一个围棋九段棋手反复观看业余爱好者的棋谱——他不会因此变得更强。而 AI 目前已经是十段甚至更高的段位要让 AI 继续进步他需要面对自己从未遇到过的、超出已有经验范围的全新棋局。对于自动驾驶世界模型来说这个“十段级的新棋局”只有一个来源L4 级全无人车队在真实世界商业运营中产生的数据。这些数据的独特价值在于它们来自 AI 自身在真实交通环境中的独立驾驶。AI 会遇到人类司机根本不会遇到的场景——因为人类司机的反应模式不同周围交通参与者与他们的博弈方式也不同。无人车引发的交通交互模式本身就是独一无二的。只有在真实世界中大规模运营 L4 无人车队的公司才能持续产出这种高价值数据。这构成了一个自我强化的飞轮大规模 L4 无人车队运营 → 产生真实世界高价值数据 → 世界模型提升精度 → 车端模型持续增强 → 支撑更大规模的 L4 部署 → 产生更多高精度数据 → ……这个飞轮一旦转起来它产出的数据是独占的它的进化方向是自我引导的它的效率是随规模递增的。没有大规模 L4 全无人车队运营能力的公司这个飞轮根本无从启动。不是靠砸更多钱买 GPU 能追上的不是靠招更多标注员能追上的也不是靠在 L2 数据上训练更多轮次能追上的。这是一道结构性的护城河。Intention给车端模型装上“意图层”行业里有一种曾经比较火热的技术路线试图在感知和动作之间塞入一个语言模型——让 AI 先用文字描述它看到的场景比如前方路口有三轮车横穿我需要减速然后再基于这段文字描述来生成驾驶动作——也就是VLA。但这违背了驾驶的第一性原理。真正的老司机在紧急避险时脑海中绝不会先默念一段台词。人类驾驶的核心是即时的空间感知与潜意识的肌肉记忆。而语言是对复杂 4D 物理时空极度有损压缩的低维产物——用一段主谓宾去描述车辆、行人、车道线之间毫秒级的动态博弈关系不仅迟钝而且信息丢失严重。小马智行选择了更直接的路径传感器数据直接映射为驾驶动作中间不经过语言层。跳过这个多余的中间商不仅大幅节省了算力消耗更让系统把省下来的每一分计算资源都花在了真正重要的事情上——理解物理世界、预演未来、做出决策。当前小马智行第七代Robotaxi车上全套计算平台仅1016 TOPS其中主系统由3颗英伟达 DRIVE Orin-X芯片构成冗余系统由1颗 DRIVE Orin-X芯片构成。冗余系统可独立完成行驶任务在主系统故障时依然可以正常行驶择机在安全的位置靠边停车。而没有这个“中间商”之后收集物理数据与提升世界模型的物理精度也会变得更为直接和高效率——很多人认为车端模型无论是VLA还是其他架构与训练模型的架构是否为世界模型不矛盾这只对了一半——当车端模型的效率足够高训练和迭代效率也会显著提升。为了更好的迭代小马智行在车端模型的训练过程中引入了Intention意图 语义层。起初车端模型的输入是传感器数据输出是驾驶动作方向盘角度、油门、刹车。它可以开得很好但它的决策过程人类无法直接阅读。在后来的版本中模型在做出每一个驾驶动作的同时其内部会生成结构化的意图表达翻译成人类可以懂的语言就是“我选择在路口前减速等待因为右前方有一个行人正在走向斑马线我预判他大概率会横穿”。这些意图信息不是事后用另一个模型解释出来的也不是在推理过程中额外插入的一个语言模型——那样就变成了“语言中间商”。它们是在训练阶段就与驾驶动作一起被联合学习的。Intention 作为模型内部的一个结构化表征让模型“想”的和“做”的从训练之初就是对齐的。可解释性带来的三重价值第一可审计。当一次驾驶行为需要被回溯分析时——无论是监管审查、事故调查还是内部质量复盘——工程师不再需要面对一个天文数字维度的神经网络去猜测“它当时在想什么”。Intention 层提供了一份人类可读的决策摘要。第二可调试。当模型在某个场景中犯了错工程团队可以直接查看它的意图表达是感知层面就没有识别到障碍物还是识别到了但意图生成环节对风险的评估出了偏差还是意图正确但最终的动作执行出了问题故障定位的精度从“某处出了问题”提升到“具体哪一层、因为什么原因出了问题”。第三可迭代。这一点至关重要它直接关联到后面将要展开的进化飞轮——当系统能够清晰地表达自己的意图时它也就具备了自我诊断的基础能力。“我在这类场景下的意图生成总是不够准确”——这种自我认知正是世界模型自我进化的起点。03.世界模型2.0自我迭代、场景不受限的物理AI引擎前面讲的是小马智行的世界模型为什么需要和怎么工作。那么接下来是更根本的问题它为什么能越来越强它的天花板在哪当“提升小马智行自动驾驶能力的过程本质上变成了提升世界模型精度的过程”我们通过不断的收集 L4 级自动驾驶的数据去提升世界模型的精度。但是当 Robotaxi 车队规模足够大、世界模型的精度也足够好大多数 Robotaxi 的数据对世界模型的精度提升也是很有限的只会平白增加存储数据的成本对训练世界模型来说也会增加数据筛选的负担。更重要的是当AI驾驶能力已经远超人类的时候人类给AI的指导可能是错的。自我诊断AI知道自己哪里不行世界模型2.0改变的正是这个逻辑。结合前面提到的intention意图层当车端模型能够清晰地表达我为什么做出这个决策时一个极其重要的能力就被解锁了——自我诊断。系统可以自动地、大规模地回溯车端模型的每一次决策甚至是训练车端模型的每一次过程比对它的意图表达与实际结果之间的偏差在哪些场景模型的意图是正确的但作执行出了偏差——需要继续在世界模型中训练在哪些场景模型的意图本身就是错的——需要继续在世界模型中训练在哪些场景模型的意图是因为真实的交互与强化学习的仿真场景不一致而错误——世界模型的精度有问题这些诊断结果会被直接反馈给世界模型。前面两个可以用于提高世界模型训练车端模型的迭代效率——专门做不熟练的题跳过“送分题”。而抽取第三类诊断结果就是2.0最核心的能力飞跃世界模型场景的精度提升不再是广撒网的而是定向的。定向采集工程师变成AI的数据采集员世界模型2.0不仅做到了更高效的提升车端模型的性能还做到了自动化提升世界模型的精度让 AI 反过来告诉人类应该去采集什么。当系统通过自我诊断发现世界模型在某一类真实场景下的表现不够稳定——比如在某个城市的某几个路口每到傍晚逆光时段模型对特定类型障碍物模拟数据生成的置信度就会下降——它会自动生成一条定向数据采集任务推送给测试运营团队“请在未来一周内于下午4:30-5:30之间在以下三个路口重点采集逆光条件下的行驶数据。优先关注非机动车和行人的混行场景。”测试工程师拿到这条指令后让测试车去执行采集任务。采集回来的真实数据被回传云端世界模型据此校准自己的场景生成模型并生成一批更真实的数据对车端模型进行针对性的微调。人类不再是 AI 的老师而是 AI 的数据采集员。研发人员、测试工程师、运营团队——整个组织开始围绕世界模型2.0的“精度需求”来运转。它说哪里弱人类就去补哪里的数据。它说哪类场景需要更多真实样本人类就开着车去跑那类场景。“研发人员在给世界模型2.0打工。”——这不是一句玩笑话而是一种全新的研发范式。当你问世界模型还缺失什么场景的仿真能力当小马智行的几千万公里的自动驾驶数据尤其是千万公里级别的纯无人驾驶数据将世界模型不断打磨这其中不仅包括Robotaxi在城区、高速、封闭园区和停车场的数据也包括Robotruck在干线、港口等不同场景的数据。AI会明确感受到他的场景数据集局限在“结构道路驾驶”这个场景。如果你问它还有哪里可以提升需要什么数据继续提升物理仿真的精度它除了回答某个新落地的国家或城市的某种特定新场景的驾驶数据需要收集外其实它也会回答说“人行道上的数据缺失”、“非机动车道的数据缺失”、“天桥上的数据缺失”甚至进而希望人类帮助其采集室内场景的数据——作为一个自动驾驶的世界模型确实是没有室内数据的但是谁说PonyWorld世界模型就只能做自动驾驶呢一个可以自我进化、高效率提升精度的世界模型其场景的覆盖能力和精度的提升能力是可以满足自动驾驶以外的物理AI的要求——比结构道路驾驶复杂度多N个数量级的能力要求的。数据再多也会不够、算力再多也会不够未来AI的持续迭代效率是非常关键的因素。无论对于提升已经远高于人类安全性的自动驾驶能力还是对于比开车场景复杂度更高的通用物理AI、通用具身智能世界模型的定向进化是必备的能力。只有能定向进化、自主进化的世界模型才能撑起更高维度、更高复杂度的物理AI的训练场景才能让AI在驾驶以外的更多任务中实现远超人类的能力。当世界模型进入2.0时代PonyWorld将不局限于优化自动驾驶场景也将探索其他物理AI场景和应用的可能。自动驾驶之心求点赞求分享求喜欢