系列报告 “CHINASMARTELECTRICVEHICLE”SERIESREPORT 2023中国智驾大模型应用研究报告 亿欧智库https://www.iyiou.com/researchCopyrightreservedtoEOIntelligence,October2023 亿欧智库: 更懂中国智能电动汽车的第三方研究机构 前言 《2023中国智驾大模型应用研究报告》简介 •随着特斯拉在2021年AIDay上发布了BEV+Transformer的架构后,国内的智驾相关企业也逐步开始研发基于BEV架构下的Transformer模型,超大参数的智驾大模型开始在自动驾驶行业内盛行起来。至2023年,智驾相关大模型开始大量出现,如华为盘古大模型、百度文心大模型、毫末DriveGPT等。 •基于上述背景,为了更深入地了解智驾大模型的定义、技术应用现状、产业竞争格局以及遇到的挑战等,亿欧智库撰写了《2023中国智驾大模型应用研究报告》,并针对中国智驾大模型应用进行深入地研究和分析。 《2023中国智驾大模型应用研究报告》核心观点 •目前,智驾大模型没有一个公允定义,并且产学研不同领域的专家对智驾大模型的定义也不一样,但结合各专家的观点来看,智驾大模型具备多模态输入、自监督学习、端到端学习范式以及大规模参数的特征。但是,相比于通用类大模型,智驾大模型的主要差异在于:部署难度高、数据维度广以及模型设计复杂。 •亿欧智库认为,智驾大模型指的是在云边端一体化的架构下,利用云端算力优势训练大规模多模态数据,然后再结合边端的计算能力,通过多任务的学习和分布式训练为车辆提供更有效的感知融合效果与实时建图方案,最终让车端实现与人类司机行为和思维一致的感知、预测、规划等能力。 •智驾大模型最重要的应用是数据闭环,相比于传统数据闭环而言,当前的数据闭环对自动驾驶系统赋能最多的主要是数据挖掘、自动标注、模型训练、仿真测试四个应用方向。从感知侧的数据采集开始,会先根据筛选器的设置来进行数据挖掘,随后通过自动化标注来对数据打标签,再对原模型反复训练并经过仿真测试后,最后对车端小模型进行优化,在经过反复地不断迭代循环后,使得整个数据闭环能力能够不断提升。 •对于已布局或正将布局的企业,智驾大模型玩家主要可分为四类,其中新势力主机厂以自研为主,而传统主机厂持有保守观望的态度;科技企业凭借强大的AI技术背景和资本实力,构建了以云服务为基础的垂直服务体系;Tier1以自研基于BEV感知的垂域大模型为主;芯片企业主要是优化芯片的开发生态,以便客户能在自家芯片上更容易地部署BEV+Transformer等大规模参数的模型。 2 目录 CONTENTS 智驾大模型发展综述 01 1.1大模型技术发展历程 1.2大模型适合应用智驾产业原因挖掘 1.3如何定义智驾大模型 02 智驾大模型在云边端一体化的技术应用探索 2.1智驾大模型技术应用总览 2.2智驾大模型产业应用探索 03 智驾大模型产业布局情况分析 3.1产业链概况与产业图谱 3.2典型玩家布局情况分析 04 智驾大模型面临挑战与发展建议 4.1智驾大模型面临的挑战 4.2智驾大模型未来发展建议 目录 CONTENTS 智驾大模型在云边端一体化的技术应用探索 01智驾大模型发展综述 1.1大模型技术发展历程 1.2大模型适合应用智驾产业原因挖掘 1.3如何定义智驾大模型 02 2.1智驾大模型技术应用总览 2.2智驾大模型产业应用探索 03 智驾大模型产业布局情况分析 3.1产业链概况与产业图谱 3.2典型玩家布局情况分析 04 智驾大模型面临挑战与发展建议 4.1智驾大模型面临的挑战 4.2智驾大模型未来发展建议 1.1BEV+Transformer应运而生,促进2023年智驾相关大模型开始涌现 1950年,基于深度学习的AI技术概念被提出,AI正式进入大众视野。1998年,以卷积神经网络为架构的LeNet-5深度学习模型诞生,奠定了大模型发展的基础。2006年-2019年,以Transformer为代表的卷积神经网络模型开始出现,模型的性能开始加速上升。2020年之后,卷积神经网络模型的参数量或模型层数急剧上升,多个通用类模型出现,其中,以GPT-4为主的多模态预训练大模型引起了广泛的关注。 2021年,特斯拉提出了BEV+Transformer的大模型,该模型也成为了之后国内玩家布局大模型的基础。至2023年,智驾相关大模型开始大量出现,如华为盘古大模型、百度文心大模型、毫末DriveGPT等。 性能 语言类大模型 CV类大模型通用类大模型 智驾相关大模型 阿里巴巴 M6 华为 盘古大模型 GoogleSwitchtransformer 导入期 OpenAIGPT4 GooglePaLM-E 百度 文心大模型 UniSim NVDIA MT-NLG OpenAIGPT3 开发期 微软 Turing-NLG GoogleT5 毫末 DriveGPT UniAD BEV+ Transformer ThinkTwice GAN GoogleBert OpenAIGPT2 微软 Florence OpenAIDALL-E2 LeNet-5 基于规则的少量数据处理 (参数、层数等) 亿欧智库:AI大模型发展历程 成长期 1950 1998 2006 2014 2018 20192020202120222023时间 1.2.1数据端:基于BEV+Transformer的融合架构,可使大规模多模态数据更好地融合 从多传感器的融合趋势来看,目标级融合(后融合)是当前行业内主流的融合方案,虽然算法开发难度较低,但融合精度较低、关键信息易缺失,不适合未来融合趋势的发展。数据级融合(前融合)是行业发展的目标,但技术壁垒高,短期内方案落地较难。所以,在不丢失关键信息的基础上,特征级融合(中融合)成为了一种合适的中间过渡形态,也更适合在当前流行的Bev+Transformer模型架构下,实现大规模多模态数据的融合。 基于规则算法的目标级融合方案,只能识别出目标物的部分特征,甚至会出现无法识别目标物的情况,导致在最终融合结果上出现误报、漏报等情况。相反,基于BEV+Transformer的特征级融合方案,可以通过注意力机制提取目标物特征,并在鸟瞰图下“脑补”出完整的目标物信息,有利于提高整体感知融合精度。 亿欧智库:多传感器的融合趋势变化亿欧智库:基于BEV+Transformer架构的特征级感知融合方案优势 目标级融合 /后融合 摄像头 激光雷达 毫米波雷达 摄像头 激光雷达 毫米波雷达 轮速计 IMU 视觉算法 点云算法 毫米波雷达感知算法 数据同步(时间、空间同步)数据级融合 轮速计 IMU 目标级融合(后融合) 优势:算法难度低、各传感器之间解耦性强 劣势:关键信息容易丢失、整体融合精度低 目标级融合方案采用的算法仍然是基于规则的运算,虽然方案整体的算法开发难度较低,但有效信息容易缺失,易引起感知系统误报、漏报等问题。 数据级融合(前融合) 优势:关键信息不易丢失、融合效果好 劣势:算力消耗较高、时空同步难、运动补偿误差大 数据级融合方案目前在行业内极少被使用,整体技术难度较高,在模型开发层面存在较多的不确定性。 特征级融合(中融合) 神经网络目标识别 可能是卡车,体积3X3X3 可能是卡车,体积3X3X2 可能是卡车,体积3X3X7 自车 可能是卡车,体积2X3X7 无法判断 神经网络特征提取 卡尔曼滤波基于规则的算法 识别难度大,融 合复杂且低效 目标级融合(后融合) 车轮、油箱、烟囱、窗户等 车轮、油箱、烟囱、窗户等 窗户、车身、挖掘机等 自车 车身、轮子等车身、轮子等 Transformer 融合效果好,容 易识别目标物 特征级融合(中融合) 结果汇总目标识别 摄像头 激光雷达 毫米波雷达 轮速计 IMU 特征提取 特征提取 特征提取 特征提取 特征提取 优势:数据损失少、目标特征级信息使得不同传感器之间融合效果较好 汇总识别 特征级融合 劣势:算力消耗大、不同模态间语义差异较大 特征级融合方案将不同传感器采集的数据进行特征提取后,再进行融合,其是目前BEV+Transformer架构下,较常用的一种融合方式。 特斯拉在2021年的AIDAY上,展示过一个大型卡车路过自车的场景,在某个时刻卡车同时出现在5个摄像头(共8颗摄像头)中,但是每个摄像头可能只露出了卡车部分车体。 对于传统规则算法(比如卡尔曼滤波),算法只会在出现卡车车体的摄像头内进行识别检测,再将检测结果进行融合,但该方法只识别出了部分卡车车体特征,仍需要对看不到的部分进行拼接,最终可能使得模型感知结果的误差较大。 对于BEV+Transformer算法模型,利用特征级融合的方式,生成了鸟瞰图视角,“脑补”出遮挡区域的目标,提高识别与融合精度。 处理/采样/筛检 算法测试 ... 训练 控制逻辑验证 专业测试车辆数据生成 输入/快递/存储 场景编辑 结果生成/分析 标注、大模型应用 重复(下一步) 模拟/存储 软件仿真模拟 社会化量产车辆 压缩/加密/转换 OTA升级优化 车端模型部署 应用部署 仿真测试 模型训练 数据标注 数据采集 如何降本增效 1.2.1数据端:智驾大模型具备数据闭环的能力,解决主机厂在数据处理层面的痛点 自动驾驶产业在数据处理层面,面临着低效率和高成本的双重问题,比如cornercase的挖掘效率低、自动化数据处理程度低、数据标注和存储成本高等,这些因素阻碍了自动驾驶技术迈向高阶自动驾驶。然而,数据是驱动自动驾驶算法迭代的必要属性,能够利用好数据的公司,才可能进入自动驾驶赛道下半场的角逐。 高效使用数据的最佳途径是打造一套数据闭环系统,而数据闭环也是智驾大模型发展的必要条件之一,通过数据采集、数据回流、数据分析、数据标注、模型训练、测试验证的一系列闭环流程,为主机厂进行降本增效。 亿欧智库:自动驾驶在数据处理中面临的痛点 低效率 高价值数据的比例低 •高价值数据通常指的是cornercase(即长尾场景数据),随着L2级以上的自动驾驶功能不断演进,越来越多的cornercase会被挖掘出来,从而转换为commoncase。但是,通过采集车收集回来的数据,由于数据量有限,使得cornercase的比例会越来越低。 各类型数据的需求同步难 •自动驾驶系统的相关数据来自不同模块,比如感知、定位、决策、规划,其中,数据类型、处理方式、数据规模都不相同,处理相应数据的工作量非常大且没有考虑到协同效应。 数据处理的自动化程度低 •当前自动驾驶的数据处理仍存在大量的手动工作比例,如数据标注环节,预标注算法的不成熟导致了标注仍需依赖人工来打标签。 高成本 地图数据采集成本高: •在无图技术仍未成熟下,无论是重图方案还是轻图方案,量产车的定位仍然需要高精地图或导航地图的支持。据公开资料显示,地图精度达到10厘米级别时,每公里测量成本为10元,而精度达到1厘米级别时,每公里的测量成本则飙升至1000元。 数据标注成本高: •毫末智行公布的图像数据标注成本约5元/张,而自动驾驶所需的数据体量约几十亿张,可见数据标注的成本非常高。 数据存储成本高: •Robotaxi单台车每天产生4000GB数据量,按照亚马逊的收费标准来看,存储一年的成本约35万美元(折合人民币约244万元)。 亿欧智库:数据闭环为主机厂带来的降本增效优势 降本 减少车端无效数据的采集 制定合理的数据存储方案 提升仿真测试的的场景覆盖度 增效 优化车端采集数据的逻辑 提高自动化标注模型的效率 强化模型的训练和部署能力 优化工具链 1.2.2算法端:高阶智驾功能存在一定挑战,智驾大模型可助力自动驾驶跳出“恐怖谷” 自动驾驶系统存在着一