行业概览 从三维感知到空间操作系统的产业化 加速与应用落地路径 (精华版) China Spatial Intelligence Industry中国の空間知能産業 1报告提供的任何内容(包括但不限于数据、文本、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。 头豹研究院 ◆中国空间智能行业综述 •定义与概念-空间智能----------4•定义与概念-世界模型----------5•发展历程----------7•全球空间智能解决方案市场规模----------8•中国空间智能解决方案市场规模----------9 ◆中国空间智能产业链分析 •产业链全景图谱----------11•上游分析-三维感知硬件与云计算基础设施供给----------12•上游分析-AI计算加速芯片与时空定位与导航基础设施----------13•中游分析-国际空间智能平台层核心参与者分析----------14•中游分析-中国智能平台层核心参与者分析----------15•下游分析-空间智能市场结构----------16•下游分析-核心应用场景:自动驾驶----------17•下游分析-核心应用场景:具身智能----------19 ◆行业分析 •政策环境----------21•竞争格局----------22•未来发展趋势----------24 ◆方法论与法律声明----------26 Chapter1空间智能 ❑定义与概念-空间智能❑定义与概念-世界模型❑发展历程❑全球空间智能解决方案市场规模❑中国空间智能解决方案市场规模 行业研读|2026/01 第一章【综述】核心定义与概念-空间智能 •空间智能是指智能系统以三维空间信息为主轴,对环境、物体、主体自身状态及其相互关系进行理解、推理与生成,并支持交互与行动闭环的综合能力体系 空间智能核心定义 ◼空间智能是AI对三维世界中的物体、人、环境、动作及其物理关系进行理解的能力。只停留在二维图像处理的AI在感知与决策上存在天然局限,而具备空间智能的AI能在三维空间中建模与推理。它不只是计算机视觉能力的延伸,更是连接具身智能(Embodied AI)、环境智能(Ambient AI)与机器人技术的重要基础。 物理直觉 对重力、稳定性、碰撞等基础物理规律的内隐建模,用于排除不可行解并提升生成/规划一致性。 在空间约束下形成从目标到动作序列的可执行路径/操作策略。 关系推理 状态估计 对物体-物体/物体-环境/智能体-环境的相对关系与拓扑关系进行推断(上下左右内外、支撑遮挡等)。 对智能体位姿(位置与姿态)的实时推断,支撑闭环定位与控制。 世界模型是连接大模型与真实三维世界的关键 ◼当前大模型在语言与内容生成方面表现突出,但关键短板在于缺乏面向真实三维世界的可执行理解与闭环行动能力。 更进一步,现实任务往往要求系统将感知结果转化为决策; 在动态环境中进行定位、预测风险并规划行动路径(如紧急疏散方向选择)。这类能力属于空间智能范畴,即围绕三维空间信息,对环境、物体与自身状态及其关系进行理解与推理,并支持交互与行动闭环。由此可见,大模型“会说不会动”的核心问题,并非生成能力不足,而是空间表征、时空一致性与闭环决策能力仍未补齐; •以视频理解为例,模型即使“看见”了办公室场景,也常难以稳定完成诸如“椅子数量”这类简单的任务,其根源不在于语言表达,而在于空间层面的能力不足:无法可靠建立物体的三维位置与边界,难以表示并推理“前后/遮挡/支撑/可达”等空间关系,也缺乏对物体状态变化的持续跟踪与更新(例如物体被移动后的新位置)。 第一章【综述】核心定义与概念-世界模型 •世界模型是智能体对外部环境的内部表征与动态预测机制;它从观测数据中学习并构建可计算的世界状态表示,并在给定动作或条件时预测环境将如何演化(未来状态及其结果),从而支持模拟、规划与决策 世界模型核心机制 ◼如果说空间智能是目标,那么世界模型就是实现这一目标的核心架构。世界模型通常被视为用于理解当前世界状态或预测未来动态的工具,并可系统化归纳为两项主功能:(1)构建内部表征以理解世界机制; (2)预测未来状态以模拟并指导决策。 历史动作 ➢内部表征型世界模型主要通过学习历史观测与历史动作,把高维、含噪的感知信息压缩为可计算的“隐状态”,从而在更稳定的表征空间中完成状态估计与场景理解;其实现通常基于概率建模、对象级或几何结构化表征,并可引入物理先验以提升一致性与可解释性。 ➢未来预测型世界模型则在该隐状态基础上进一步学习状态随时间与动作变化的演化规律,支持对未来进行多步滚动预测与结果生成;常见做法是采用生成式时序模型(例如视频生成或扩散式建模)来刻画连续动态,并输出与场景结构一致的未来演变。 ➢世界模型不仅产生预测结果,还为规划提供可行域与物理约束,使系统能够在“观测—表征—预测—规划—执行—再观测”的闭环中迭代更新,从而提升多步决策的稳定性与可执行性。 内部表征 未来预测 ◼内部表征型的世界模型可采用概率模型、物理模型等显式形式,通过学习历史数据提炼环境规律,从而预测未来状态与事件。 ◼面向未来推演的世界模型则更多依托扩散模型、视频生成等生成式方法,通过对连续时间动态模拟与外推,生成更接近真实世界的场景演化过程。 行业研读|2026/01 第一章【综述】核心定义与概念-世界模型 •世界模型作为生成式AI模型,通过构建内部表征理解真实世界动态规律(涵盖物理特性与空间属性),并从感官数据中学习表征与预测运动、力和空间关系等动态特性,从而模拟、指导及实施决策 构建多模态世界模型 构建多模态世界模型 ◼为获得隐式知识与空间智能,AI架构需从“文本序列建模”升级为“世界状态—行动建模”。世界模型作为关键中枢,在内部构建统一的环境表征(几何、语义、关系与动态),并学习其随时间与动作变化的状态转移规律。而多模态世界模型,其内涵包括三点: 多源感知融合将视觉、听觉、触觉/力觉等输入统一到同一世界状态中,解决跨模态对齐与时空一致性问题 行动条件化预测将动作/控制信号作为条件变量纳入预测框架,实现“给定动作→世界如何变化”的可计算推演 内部仿真与反事实评估在执行前进行快速的“what-if”推演,为规划、推理与样本高效学习提供安全的试错机制 理解复杂的人类目标 ◼现实指令通常是高层次、含歧义且多步骤的,要让AI具备可执行的目标理解能力,关键在于建立从“语言目标”到“可执行计划”的系统性映射。 语义解析与约束抽取 将视觉、听觉、触觉/力觉等输入统一到同一世界状态中,解决跨模态对齐与时空一致性问题 空间绑定与场景检索 将语言实体与三维场景中的具体对象、位置与关系对齐,解决“目标在哪里、如何可达” 基于世界模型的规划与验证 在世界模型中生成候选行动序列,并对路径、操作可行性与物理后果进行预测与校验 世界模型的核心:物理学 ◼多模态世界模型的关键在于通过大规模交互数据内化基础物理规律,建立“动作—后果”的可预测映射,从而支撑真实世界任务的可行性与安全性。 这种“物理”不必以显式物理引擎的形式手工编码,而应通过大规模交互数据与闭环经验学习获得 在多模态世界模型中,最不可或缺的基石是对基础物理规律的内化 尤其是与现实操作直接相关的重力、摩擦、质量、惯性、碰撞与支撑稳定性等。缺乏直觉物理的系统难以可靠完成真实世界任务:它可能给出不可行路径、错误的施力策略,或忽视约束导致失败与风险。 在观察与操作中形成可泛化的动力学规律,使模型能够对“动作—后果”建立稳定映射,并在规划阶段对安全性与可行性进行前置评估。最终,物理一致性将成为世界模型从“生成合理外观”走向“生成可执行行为”的决定性条件。 行业研读|2026/01 第一章【综述】发展历程 •从“定位与建图(SLAM)”等几何感知起步,经过深度学习驱动的三维理解与多模态融合,正演进到以“世界模型”为核心的可生成、可预测、可交互的三维世界模拟与行动闭环 空间智能发展历程 早期探索 •计算机视觉的起步 空间智能的概念最初源于计算机视觉、机器人学等领域。计算机科学家和工程师开始尝试使机器理解二维图像中的空间信息,包括目标识别、物体追踪等。 20世纪90年代,SLAM技术的提出为机器人和自动驾驶的发展奠定了基础。SLAM使得设备能够在不依赖外部定位信息的情况下,通过感知周围环境建立地图并进行自我定位。此时,空间智能更多关注局部空间感知和环境定位。 基础设施和技术突破 进入2000年代,随着激光雷达(LiDAR)和深度传感器(如Kinect)的出现,机器人能够获取到更精确的三维环境数据。这一技术进步使得机器人和自动驾驶系统能够对更复杂的环境进行高精度感知。 随着计算能力的提高,深度学习成为解决空间智能问题的核心技术,特别是在计算机视觉领域。深度神经网络的应用使得机器人和自动驾驶系统在复杂环境中能够更好地进行感知、识别和决策。 智能系统与世界模型的提出 2018年,世界模型的概念被提出,指的是一种用于理解和模拟环境的生成模型。它使得机器不仅能够感知当前的空间状态,还能够预测未来状态和变化。这一概念的提出,为空间智能的未来发展提供了更加宏大的框架。 全球自动驾驶技术进入快速发展阶段,许多公司(如特斯拉、Waymo、百度Apollo)开始大规模部署自动驾驶系统,依靠空间智能技术进行精准的环境感知和路径规划。 空间智能的多领域应用与商业化 空间智能技术被广泛应用于自动驾驶、虚拟现实、增强现实、机器人、智能家居、工业自动化等多个领域。特别是在自动驾驶领域,全球范围内的技术公司不断推出新的解决方案。 •虚拟与增强现实 虚拟现实(VR)和增强现实(AR)技术的不断进步推动了空间智能的实际应用,特别是在游戏、教育、医疗和设计领域。3D环境的模拟、虚拟世界的交互等方面成为了重要的研究课题。 第一章【综述】市场规模 •全球空间智能解决方案市场正处于技术成熟、成本下探与场景落地共振驱动的高速扩张期,2019—2029年市场规模预计将由138.2亿元增至8,256.2亿元,行业持续维持接近50%的高景气增长 ◼全球空间智能解决方案市场规模呈现爆发式增长。市场规模从2019年的138.2亿元迅速攀升至2024年的1,045.6亿元,在此期间实现了高达49.9%的年复合增长率(CAGR)。预计到2029年,市场规模将进一步扩大至8,256.2亿元,2025年至2029年的预测年复合增长率仍将保持在48.5%的高位,其反映行业正处于高速规模化扩张阶段。 空间智能行业呈现高增速与应用结构分化并行的格局,主要源于技术供给端的可获得性提升与行业场景对精度、时效性要求持续加严并相互强化。一方面,深度相机、激光雷达、IMU等三维感知硬件与点云处理算法逐步成熟,使三维感知、空间重建与定位从高门槛定制工程转向组件化集成与平台化部署,实施成本与交付周期明显下降。另一方面,IoT与5G提供的实时数据与低时延传输,提高了空间信息在闭环业务中的可用性,使其更易进入交通调度、仓储物流与工业现场等对响应速度敏感的场景,推动需求从“可选”转为“刚需”。同时,制造与交通行业对自动化、实时决策与可验证可靠性的要求上行,促使解决方案由单点识别升级为多源融合、数字孪生与在线决策一体化系统,并形成项目化交付与平台复用空间。需要关注的是,跨学科研发、三维数据采集与治理、存量系统集成互操作及稳定性合规要求,仍将抬高进入门槛并延长验证周期,市场中