目前自动驾驶行业网络基础架构普遍为Input->backbone->neck->head->output。纯视觉方案的特斯拉自主构建HydraNet网络,在input端输入摄像头的原始图像数据,通过backbone层神经网络(CNN)提取图像特征,对特征赋予时间等信息做融合(BEV+Transformer),将速度、环境等感知处理结果传向各子heads再完成后续规控任务。目前行业通用的自动驾驶模型是存在感知、规划几个模型的分解式构造。 特斯拉端到端模型有望引领行业。特斯拉感知层从CNN单head网络迭代,2021年引入BEV+Transformer,将多摄像头数据统一成俯视角度;2022年提出OccupancyNetworks判断空间占用。规划层引入交互搜索,逐步增加约束条件(其他参与者博弈行为)做最优路径规划。2023年后特斯拉提出端到端自动驾驶大模型,将感知、规划多个模型融合成大模型,实现直接输入图像数据到输出转向、刹车等驾驶指令突破。减少中间模块训练过程,集中模型训练资源;避免数据多级传输误差,系统迭代速度提升,进化加速。 国内逐步落地大模型。特斯拉软件领先,硬件8颗摄像头纯视觉方案,21年起逐步取消雷达;国内小鹏、华为4月发布BEV、Transformer、GOD网络等大模型,实现无高精地图智驾,理想6月发布MindGPT、BEV等大模型,加速城区NOA落地。国内智驾硬件普遍11~12颗摄像头+5颗毫米波雷达+12颗超声波雷达+1~2颗激光雷达+域控,成本3~4万元,远期有望降至2万内。 预计2025年中国带城区辅助驾驶的自动驾驶市场规模510亿元。我们预计2025年带城区辅助驾驶功能的自动驾驶渗透率将从目前0.4%提升到6%水平,市场规模510亿元。自动驾驶底层是机器取代人力,用户定价与自身成本相关,远期随厂商技术进步,产品供给曲线右移,稳态需求量持续增加。 大模型推动智驾硬件变革。感知端重心转向视觉,摄像头像素提升,4D毫米波雷达上车;考虑成本、供应链安全,光传输取代电传输是未来方向。规划端数据要求提升,域控算力升级;执行端线控制动和线控转向是必经之路。 风险提示:1、竞争恶化;2、智能驾驶进度不如预期;3、系统性风险。 投资建议:智能驾驶感知、决策、执行均有望受益。当前汽车智驾围绕数据流演进,算法在于整车,零部件涉及感知(数据获取)—决策(数据处理)—执行(数据应用)。特斯拉技术突破加速智驾方案迭代,围绕感知、决策、执行等布局的零部件厂商均有望受益。推荐决策层标的德赛西威、科博达、均胜电子;算法层标的小鹏汽车;执行层标的伯特利、保隆科技。 前言:感知-规划-控制,算法迭代驱动高阶智能驾驶落地 智能驾驶汽车本质也是具身智能的产品之一(做极致类比相当于一个大型轮式机器人),和服务机器人相比,智能驾驶汽车一定程度替代司机的劳动付出(家庭服务机器人替代保姆),司机的驾驶行为是较为标准化的动作,如果不考虑安全法规要求,单纯从技术实现难度看,智能汽车有望成为较早落地的具身智能产品。 笔者认为每一轮新技术驱动下的景气度行情,离不开以下四要素: 1)技术底层突破。复盘电动化的技术底层在三电产品,尤其是电池,当续航里程和成本达到一个相对适合量产的阶段,且产业链完备性提高,为爆款产品打造奠定基础。智能化的技术底层颠覆性创新在这一轮的人工智能水平的提升,基于谷歌2017年提出的《AttentionIsAllYouNeed》,2021年以特斯拉为首的感知层算法模型BEV+Transformer上车且持续迭代,2023年期待端到端的大模型上车。 2)爆款产品出现。技术突破之后伴随成本平价,会首先出现有标志意义的爆款产品,复盘电动化的爆款产品出现在2020年,伴随特斯拉国产化,Model3和比亚迪汉分别是特斯拉和比亚迪的两个标志性爆款。本轮智能化爆款产品国内可能由小鹏G6等车型开始,后续特斯拉FSD如若入华,有希望成为新的智能化爆款车型。 3)可持续跟踪的数据。电动化的数据较为完备(销量和渗透率)。智能化目前没有一个公认的标准L3级别渗透率数据,但是海外可以跟踪特斯拉FSD装配率数据,国内我们预计后续各家车企会逐渐常态化发布城市NGP的测试里程、付费率以及渗透率数据。 4)海内外行情共振。电动化的海外行情先启动,特斯拉2019年底开始伴随上海工厂建设大涨,2020年上半年先传导到美股新势力车企,下半年开始传导到国内比亚迪和长城的行情。智能化这一轮海外行情在特斯拉,国内映射在产品端主要是小鹏汽车等。 当前汽车智能化已经具备技术底层突破(大模型上车)、爆款产品出现(小鹏G6待验证)、可持续跟踪的数据(暂无,预计陆续发布),海内外共振(海外跟踪特斯拉进展)。我们认为,智能驾驶空间巨大,奇点时刻渐近,技术迭代和产品渗透率有望加速。 可替代的劳动力空间巨大:智能驾驶汽车的劳动力替代空间巨大,假设在驾驶方面的劳动力成本按每月1000元计算(保守假设运营车辆司机月薪4000元,私家车驾驶时间按运营车辆司机四分之一计算),无人驾驶实现后,测算每车每年劳动力节省成本有望破万元(当前华为ADS2.0包年价格7200元),考虑6-8年汽车生命周期,每车生命周期劳动力节省成本近10万元(当前特斯拉FSD北美买断价格1.5万美元),无人驾驶所节省的劳动力成本可以覆盖当前国内外高阶自动驾驶的收费,渗透率提升空间较大。全球14亿汽车保有量,我们测算远期无人驾驶100%渗透之后所节省的全球汽车驾驶员劳动力的市场空间有望过十万亿(年化)。 预计2025年国内带城区辅助驾驶功能的智能驾驶市场规模约510亿元。我们测算2023年车主购买带有城区辅助驾驶功能的车预计占我国乘用车市场整体的0.4%,假设单车买断价3.6万元,市场规模约32亿元;至2025年,在小鹏、理想、问界、蔚来、特斯拉等车企发力下,国内带有城区辅助驾驶的自动驾驶渗透率预计到6%,市场规模约510亿元;到远期假设我国80%乘用车搭载城区辅助驾驶功能,其中60%车主愿意支付2万元买断费用,我国乘用车自动驾驶市场规模预计达2880亿元。 表1:含城区辅助驾驶的自动驾驶市场规模 特斯拉FSD算法持续升级(2021年BEV+Transformer—2022年引入Occupancy Network—2023年或引入端到端融合大模型),引领行业发展。特斯拉从2016年开始自研自动驾驶软件算法,2019年推出自主构建的HydraNet网络,赋予自动驾驶模型同时处理多任务能力;随后基于谷歌的《Attention IsAllYouNeed》引入Transformer网络架构,2021年推出的BEV+Transformer感知模型将多角度图像数据统一成俯瞰图角度;2022年提出Occupancynetwork,完善3D空间网络占用检测能力,解决自动驾驶过程中遇到的未在训练集出现数据无法识别情况。 这一时期自动驾驶方案将感知模型处理后的环境、速度等数据向下传输至规控模型,特斯拉引入交互搜索,逐步增加约束条件(其他参与者博弈行为)做最优路径规划。2023年后,特斯拉进一步提出端到端大模型算法,将感知、规划模型变成融合大模型,实现直接输入传感器数据到输出转向、刹车等驾驶指令突破。一方面减少感知、决策等中间模块的训练过程,有效集中模型训练资源;避免产生数据多级传输导致的误差;同时不存在各子模块目标与总系统目标存在偏差的情况,保证效益最大化。 图1:特斯拉算法持续迭代 造车新势力跟随特斯拉方案,智能驾驶算法迭代,驱动高阶智能驾驶落地。特斯拉推出BEV大模型后,国内车企及供应商积极跟随,小鹏/华为今年4月推出BEV+Xnet/BEV+Transformer+GOD网络模型,实现不依赖高精地图的自动驾驶;理想今年6月推出BEV+Transformer+NPN+TIN,加速城区NOA落地。蔚来也宣布NOP+已经切换到BEV+占用栅格技术,7月1日起正式开启付费订阅。种种革新揭示智能驾驶接近奇点时刻,马斯克预计全面智能驾驶时代今年年底即将到来。 表2:自动驾驶公司感知大模型配置情况 大模型上车强化视觉算法弱化成像雷达,有望实现感知硬件整体降本。硬件上,自动驾驶方案可分纯视觉和融合感知两种,特斯拉采用前者,21年后逐步取消雷达,8颗120万像素摄像头配置,全栈式自研域控制器,预计摄像头+域控成本约1万元;国内则普遍采用融合感知方案,小鹏G6 Max版搭载31颗传感器,包括12颗摄像头+12颗超声波雷达+5颗米波雷达+2颗激光雷达,预计整车传感器+域控成本约3万元左右。未来感知重心向视觉转移,或将实现硬件降本。 表3:典型车型硬件配置情况 大模型推动智能驾驶硬件变革。感知端,系统重心向视觉转移,摄像头像素水平提升(500w及800w高像素摄像头配置比例提升),同时从成本及供应链安全趋势下,光传输取代电传输是未来方向。规划端,数据和算法要求提升,自动驾驶芯片算力持续提升(或从低于100tops到远期1000tops);执行端,线控制动和线控转向等底盘核心技术是高阶自动驾驶必经之路。 国信汽车团队自2018年起重点研究汽车智能驾驶赛道,发布了多篇行业前瞻深度报告,本篇报告为《前瞻研究系列二十:智能驾驶专题之算法篇:AI赋能背景下看汽车智能驾驶算法的迭代》,主要就数据融合和神经网络、特斯拉智能驾驶大模型、国内造车新势力大模型的技术和应用情况进行系统梳理,以期为读者了解智能驾驶提供参考。 数据融合和神经网络构建智能驾驶方案底层 目前自动驾驶行业网络基础架构普遍为Input->backbone->neck->head->output。以特斯拉为例,其自动驾驶理念是通过深度学习模型建立仿照人脑基于视觉的计算机神经网络系统,将摄像头的图像数据经过融合、特征提取、识别、决策几步处理成鸟瞰图模式或者3D空间占用情况,用于后续的路径规划,各家处理顺序有所不同。具体而言,特斯拉自主构建的HydraNet网络在input端输入摄像头的原始图像数据,通过backbone层的神经网络架构提取图像特征数据,将特征输入neck结合后续路径规划等任务做调整,再对特征数据赋予时间信息,进一步实现对目标不同时间信息的融合,并将结果传向各个heads,完成后续任务。 整个算法的核心在于特征提取及数据融合,高效的数据处理和有效的感知图层构建是自动驾驶落地的基础。特斯拉以视觉图像数据为主,其他车企也会选择将毫米波雷达、超声波雷达、激光雷达等多传感器数据加以综合,并在特征提取、识别、融合、决策等数据处理顺序上存在差异,以此可以将数据融合分为前融合、后融合、特征级融合三种模式。 图2:特斯拉自动驾驶网络架构 特征级融合集低数据损失与低算力消耗优势于一体 1)前融合:传感器数据融合,计算量大,目前业内应用并不多。 前融合,也称为数据级融合,指的是将传感器的观测数据融合,然后再从融合数据中提取特征向量进行判断识别。其特点在于只有一个感知的算法,对融合后的多维综合数据进行感知。 图3:多传感器前融合基本原理示意图 图4:多传感器前融合典型结构 前融合的优势是不存在数据丢失的问题,得到的结果也较为准确,前融合属于底层数据融合。将多个传感器的原始观测数据(rawdata)直接进行融合,比如把激光雷达的点云数据和摄像头的像素级数据进行融合,数据的损失比较少;其挑战主要在于计算量大,对算力和融合策略要求较高,由于视觉数据是2D图像空间,激光雷达点云是3D空间,在进行融合时,要么在图像空间里把点云放进去,给图像提供深度信息,要么在点云坐标系里,通过给点云染色或做特征渲染,让点云具有更丰富的语义信息。 图5:相机和激光雷达前融合效果示意图 2)后融合:各传感器输出结果在决策层融合,为智能驾驶早期阶段主流方案。 后融合,也称为目标级融合、决策级融合,指的是每个传感器各自独立处理生成的目标数据,每个传感器都有自己独立的感知算法,比如视觉感知算法、激光雷达感知算法、毫米波雷达感知算法等,从而各自输出带有传感器自身属性的结果,并在决