3DGS火出圈:未来十年AI不只读写,更要看、建、做
文章目录一个正在发生的信号从渲染技术到世界级系统一、为何需要 “三位一体”具身智能的三块拼图1. 多模态LLM机器的 “认知中枢”2. 3DGS机器的“空间眼”3. Flow-based 生成模型机器的 “运动神经”二、从感知到行动具身智能的闭环结构三、技术趋势从分散方案走向统一范式四、工程现实3DGS 落地仍面临挑战五、写在最后一条仍在展开的技术路径过去十年AI 学会了 “读” 和 “写”而未来十年AI 必须学会 “看”、“建” 和 “做”。近两年一个原本属于计算机图形学与三维重建领域的技术 —— 3D Gaussian Splatting3DGSKerbl et al., 2023—— 正在快速 “出圈”。从学术论文到工业系统其演进速度远超预期。更值得关注的是这种演进不再局限于 “渲染更快”而开始指向一个更宏大的问题机器如何在真实世界中构建、维护并使用一个可计算的三维表示。一个正在发生的信号从渲染技术到世界级系统2026年4月World Labs 发布了 Spark 2.0对基于 3DGS 的 Web 端渲染系统进行了系统级升级。与早期工作不同Spark 2.0 的目标不再只是 “高效渲染单个场景”而是在任意设备上流式加载并实时呈现一个可扩展的三维世界。其核心技术包括连续层次细节Level-of-Detail, LoD系统基于高斯层次结构splat tree动态选择渲染子集使计算复杂度与视点相关而非与场景规模相关渐进式流式加载Progressive Streaming按视点优先级逐步加载 3DGS 数据实现“边加载边交互”虚拟内存机制Virtual Memory在固定 GPU 内存预算下调度海量高斯数据使浏览器端也能访问超大规模三维场景。从系统角度看这些设计带来了三个关键变化渲染复杂度与场景规模解耦数据可跨设备流式访问多对象可统一组织于同一空间这意味着3DGS 正在从 “单场景表示方法”演进为“可组合的三维世界表示系统”。值得注意的是Spark 最初即服务于 “世界模型World Model” 方向的探索。在这一背景下3DGS 不再只是图形学技术而开始承担 “世界状态表达” 的角色。一、为何需要 “三位一体”具身智能的三块拼图如果将视角进一步拉高可以看到一个逐渐清晰的技术共识通用具身智能依赖三类能力的统一 —— 认知、空间与行动。这对应着一个具有现实可行性的技术组合具身智能 ≈ 多模态 LLM认知 3DGS空间 Flow-based 生成模型行动对应 “决策 — 表征 — 控制” 的经典分层结构。1. 多模态LLM机器的 “认知中枢”当人类发出指令 “把那个红色的杯子拿给我”系统首先需要完成语义理解、跨模态对齐、任务分解。多模态模型如 GPT-4V、Qwen-VL、LLaVA已经在这一层面表现出强大能力Liu et al., 2023。但其输出仍然是符号层信息无法直接回答杯子的位置与姿态、是否被遮挡、抓取所需的物理约束。这些问题需要一个空间层表示来承载。2. 3DGS机器的“空间眼”传统三维表示存在明显取舍Mesh/点云几何明确但表达能力有限NeRF 表达连续但推理成本高Mildenhall et al., 2020。3DGS 提供了一种新的平衡实时渲染能力、显式结构高斯集合、可微分优化、可扩展属性语义/动态。从表示学习角度看3DGS 是一种介于显式几何与隐式场之间的半显式可微表示Jun-seong Kim et al., 2025。近期工作进一步探索将语义信息注入 3DGS使其从 “可视化表示” 走向 “可查询空间结构”。换句话说3DGS 正在成为一种 “空间数据库”向着一种 “可查询的空间表示” 演进。3. Flow-based 生成模型机器的 “运动神经”在行动层问题转化为如何生成连续且可控的动作。扩散策略方法如 Diffusion Policy已验证其表达能力Chi et al., 2023但推理成本较高。Flow Matching 提供了一种更高效的路径Lipman et al., 2022将生成过程建模为概率流使用常微分方程 (ODE, Ordinary Differential Equation) 进行连续求解支持更少步甚至单步生成。结合 Transformer 架构如 DiT可在保证表达能力的同时显著降低延迟Peebles Xie, 2023。从方法论上看Flow Matching 正在成为连接扩散模型与连续流模型的关键桥梁。二、从感知到行动具身智能的闭环结构将三者组合可以形成一个完整闭环指令 → LLM任务解析 → 3DGS空间状态 → Flow模型动作生成 → 执行 → 感知反馈 → 更新这一架构具有三个关键特征闭环Closed-loop、实时Real-time、可微Differentiable。三者分工明确LLM 负责决策与规划3DGS 负责世界建模Flow-based 模型负责控制动作生成。三、技术趋势从分散方案走向统一范式从学术界到工业界不同技术路径正在收敛多模态模型统一认知能力三维表示强化空间理解生成模型驱动连续控制。其共同指向是构建一个统一的 “认知 — 空间 — 行动” 系统。而 3DGS 的出现使 “空间层” 首次具备与其他两层匹配的工程可行性。四、工程现实3DGS 落地仍面临挑战尽管前景清晰但工程实践仍存在门槛理论复杂体渲染、球谐函数等、工程链路长SfM/MVS → NeRF → 3DGS、性能优化困难GPU 与数据结构。当前开源生态的普遍问题是“能跑通” 不等于 “能理解、能优化”。五、写在最后一条仍在展开的技术路径三维重建技术正在经历一次重要转变从离线建模工具到在线感知系统再到具身智能基础设施。3DGS 只是这一过程中的关键节点但其背后是一个更深层的趋势世界模型正在从抽象走向可计算、可交互、可实时。对于希望系统掌握这一领域的读者我们在《三维重建技术与实践基于NeRF与3DGS》中尝试从多视图几何、神经表示到工程实现进行完整梳理。这本书更关注技术体系、原理理解、工程贯通。如果你正在思考空间智能或具身系统这或许是一条值得深入的路径。获取方式京东https://item.jd.com/15356282.html当当https://product.dangdang.com/30039018.html参考文献Chi, C. et al. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. arXiv:2303.04137.Kerbl, B. et al. (2023). 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM TOG (SIGGRAPH).Jun-seong Kim. et al. (2025). Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration. CVPR.Lipman, Y. et al. (2022). Flow Matching for Generative Modeling. arXiv:2210.02747.Mildenhall, B. et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields. ECCV.Peebles, W. Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV.Liu, H. et al. (2023). Visual Instruction Tuning (LLaVA). arXiv:2304.08485.-《三维重建技术与实践基于NeRF与3DGS》机械工业出版社 | ISBN978-7-111-80414-7