证券研究报告 2024年智驾中期策略:特斯拉打开智驾技术新高度,降本是国内产业链首要目标 国投证券研究中心汽车团队 分析师:徐慧雄S1450520040002分析师:李泽S1450523040001联系人:者斯琪S1450123070037 行业评级:领先大市-A2024年5月25日 1、技术角度:特斯拉端到端打开智驾新高度,中美智驾阶段性脱钩 2020-2022年间特斯拉在北美提出并成功验证了“BEV+Occupancy”感知架构,国内厂商从2022/2023开始陆续跟随: •BEV鸟瞰图解决了此前落地城市NOA功能过程中对高精度地图强依赖的问题。2021年AIDAY,特斯拉提出以Transformer为主干网络的BEV空间构建方式,也即通过Transformer模型将多视角图像信息重建至向量空间下,且该向量空间在大模型的加持下拥有更高的环境感知精度,从而降低对高精度地图的依赖。 •Occupancy则在2DBEV的基础上增强对于物体高度信息的感知,有效解决了对于异形障碍物识别的问题。Occupancy占用网络的核心思想在于将三维空间划分为无数个微小立方体,面对障碍物时“不再考虑这个物体到底是什么,只考虑对应区域的微小立方体是否被占用”。 特斯拉 国内厂商陆续跟随特斯拉BEV+Occupancy网络架构 算法架构向神经网络升级,提出九头蛇算法,探索基于后融合的BEV感知 开始聚焦纯视觉自动驾驶 FSDV9,第一届AIDay,公布BEV网络架构,城区NOA落地 FSDV10,特斯拉召开第二届AIDay,公布Occupancy网络架构 FSDV11,统一高速/城区堆栈,端到端全新架构在研 FSDV12推送, 端到端上车 2019 2020 2021 2022 2023 2024 2019 2020 2021 2022 2023 2024 国内智驾 国内新势力厂商基于传统机器视觉的方法,陆续落地高速NOA功能 华为极狐首次亮相,搭载三颗激光雷达 国内头部新势力厂商基于小模型+激光雷达方案在个别城市落地NOA功 国内向重感知轻地图方向演进,BEV架构开始上车,城 国内Occupancy网络开始上车。在研端到端,架构 资料来源:国投证券研究中心绘制 能市NOA开始落地 与特斯拉差异较大。 “端到端”智能驾驶的三层概念 •全局端到端:从传感器输入到控制信号输出(PhotontoControl),中间所有步骤都是端到端可导,可进行全局的优化。 •模块化端到端:在最终输出控制信号之外,引入一些中间任务的监督。和全局端到端相同的地方在于同样可以进行全局的优化,整个模型可以进行联合训练和调优。 •“伪”端到端:在规控端用神经网络替代基于程序员自己写规则的方式,感知大模型网络和规控大模型网络之间不可导。 对高精度地图的强依赖问题 BEV鸟瞰图增强车端实时感知能力 为什么需要端到端智能驾驶? 一般障碍物识别率低的问题 Occupancy占用网络 •规控端仍是主要基于程序员自己写规则的方式,城区场景下仅 与复杂交通参与者交互问题 端到端自动驾驶 一个十字路口可能就存在上百种交互情景,靠人类程序员手写规则无法穷尽,造成的结果就是强博弈场景通行效率低。上述 三种端到端均可以解决与复杂交通参与者的交互问题。 •传统分模块的自动驾驶模型架构下,不同模块之间的接口输出结果均基于人工的选择,感知输出的信息都是人工定义的显示抽象(如车道线、障碍物等信息),但现实中可能存在难以充分表达但会影响下游决策的因素。同时模块之间的误差结果会累计,使得最终的输出结果有较大的偏差。针对这个问题只有前两种端到端才可以解决。 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 模型层面:基于全局端到端自动驾驶模型 •目前特斯拉未召开第三届AIDay,行业内尚不知道特斯拉端到端自动驾驶模型具体的网络架构,我们仅能从23年CVPR以及马斯克采访/博文的只言片语中得到一些基本的判断。1)特斯拉端到端模型很可能是基于生成式AI。2)在特斯拉很可能在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。 ①特斯拉端到端模型很可能是基于生成式AI判别式模型vs.生成式模型: •判别式模型:学习输入数据到输出结果的映射关系,需要人工标注的数据进行有监督的训练。之前特斯拉、国内自动驾驶厂商主要采用的就是判别式模型,为了提高效率,特斯拉逐步从人工标注向自动化标注转变。但自动标注过程非常占用算力资源,影响模型的scaleup能力。 •生成式模型:可以利用自然数据做自监督训练,无需标注,模型的scaleup能力大幅提升。比如GPT会读取一段连续的文本,尝试预测这段文本中的下一个词,再比较预测的单词与实际的单词进行迭代优化。 自动驾驶最终任务可以抽象为“生成自车的未来轨迹”,与生成式模型的原理非常类似,且相比于判别式模型,生成式模型在scaleup上具备明显的优势,因此我们判断,特斯拉端到端模型很可能是基于生成式AI模型。 模型层面:基于全局端到端自动驾驶模型 ①特斯拉端到端模型很可能是基于生成式AI •以学界OccWorld模型解释生成式AI在自动驾驶模型中的应用:采用类似GPT的生成架构,以自回归方式从先前场景预测下一个场景,实现了对自车运动和周围环境演化的同时建模。 •特斯拉FSDV11的算法架构中,已经在Lanesnetwork模型中部分应用了类似的思路:将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词token,再以序列自回归的方式预测节点的位置、属性以及连接关系。 OccWorld模型采用类似于GPT的框架 资料来源:OccWorld:Learninga3DOccupancyWorldModelforAutonomousDriving,国投证券研究中心 特斯拉Lanesnetwork模型语义模块架构 资料来源:特斯拉AIDay,国投证券研究中心 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 模型层面:基于全局端到端自动驾驶模型 ②特斯拉或在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。世界模型应用于自动驾驶的Pipeline 什么是世界模型? •worldmodel世界模型的核心任务是预测出未来怎么发展,背后的本质在于模型能够自己习得因果关系。当前神经网络和人类的差距在于,神经网络的预测结果是概率输出,知其然而不知其所以然;而人类可以通过观察、以及通过无监督的方式进行交互来学习积累大量关于物理世界如何运行的常识,这些常识告诉人类什么是合理的、什么是不可能的,因此人类可以通过很少的试验学习新技能,可以预测自身行为的后果。所谓世界模型就是希望神经网络可以同样具备上述的能力。 世界模型和端到端的关系? •在自动驾驶领域引入世界模型意味着对未来场景的模拟和预测,即世界模型为端到端提供场景演化的理解。 资料来源:WorldModelsforAutonomousDriving:AnInitialSurvey,国投证券研究中心 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 ②特斯拉或在原有Occupancy模型的基础上构建世界模型,为端到端提供场景演化的理解。 •特斯拉在2023年CVPR上曾展示了对于世界模型的探索:构建向量空间的世界模型特征(一种三维重建方式能描述物理世界的全部特征),所有的智能驾驶任务都可以通过简单地插入(plugging)任务头来实现。 •端到端模型不等于抛弃之前的感知网络架构:特斯拉在2023CVPR的演讲上曾表示“Occupancy模型实际上具有非常丰富的特征,能够捕捉到我们周围发生的许多事情。整个网络很大一部分就是在构建世界模型特征。” Occupancy模型中很大一部分用于构建向量空间特征 资料来源:2023CVPR,国投证券研究中心 1.2.1特斯拉端到端模型上车,FSD体验跨越式提升 数据闭环:数据闭环流程简化,云端算力为数据闭环中最核心的环节 •随着模型架构的改变,数据闭环流程也随之改变。在FSDV11的技术栈下,数据闭环包括数据采集->数据清洗->自动化标注->模拟仿真->云端训练->模型部署等多个环节。若模型架构从判别式模型向生成式模型转变,训练方式从有监督向自监督转变,并省去了复杂的数据清洗和自动化标注环节(仅需要删选出来人类优质的驾驶行为数据即可),数据闭环流程大幅简化。 •云端算力资源的重要性进一步提升。马斯克曾多次在推特上表示“FSDV12端到端模型迭代主要受到云端算力资源的掣肘”。 •特斯拉针对超算中心大幅投入,云端算力快速提升。截至22年AIDay,特斯拉具有1.4万个A100(<5EFLOPS算力),到23年8月马斯克直播时特斯拉已经具备1.6万个A100+1万个H100+Dojo,算力合计超过16EFLOPS,同时马斯克提到特斯拉23/24年对超算中心的年投入都会超过20亿美金。在 特斯拉FSD云端算力大幅增长(单位:EFLOPS) 2024年12月 2024年4月 35 2019年8月2020年2月 2021年8月 3.60 2023年8月 16 2022年10月 4.37 0.47 0.53 85 大幅投入的背景下,特斯拉云端算力快速提升,至24年4月,具有约35EFLOPS云端算力,预计到24年底提升到85EFLOPS。 2019年1月2020年1月2021年1月2022年1月2023年1月2024年1月 资料来源:特斯拉AIDay,马斯克直播,特斯拉业绩会等,国投证券研究中心 日期 版本 推送范围 FSDV11推送节奏 2022年11月11日 V11 向员工和特定车主(specificgroups)推送FSDV11。 2023年2月14日 V11.3 向内部员工推送FSDV11.3。 2023年3月7日 v11.3.1 面向此前使用过FSDBeta11.3的员工以及最初的1000名公测用户推出。发布后一天内面向0.1-0.5%、0.1-0.5%、15%-25%的北美用户范围进行三轮推送。由于发现关键问题,测试在有9%的测试用户参与测试后停止。向员工发布FSDV11.3.3。 2023年3月19日 v11.3.2 2023年3月24日 v11.3.3 2023年3月25日 v11.3.3 修正v11.3.2问题后面向北美用户推出,覆盖超过35%的测试者,v10等旧版本用户可直接更新至v11.3.3。 2023年3月31日 v11.3.4 向员工推送FSDV11.3.4。 2023年4月1日 v11.3.5 同时向北美用户推出,原因可能是进行A/B测试。在4月1日、4月2日、4月5日分批次向用户推送。 2023年4月8日 v11.3.6 先后向员工和全量用户陆续推出。 FSDV12推送节奏 2023年11月24日 V12内测版 推送给以高管和团队领导人组成的“特殊小组”。 2023年12月21日 V12.1 北美所有的团队领导和经理。 2023年12月27日 V12.1 推送给Wave1(以员工自有车辆组成的项目)。 2024年1月14日 V12.1.1 向员工推送FSDV12.1.1。 2024年1月22日 V12.1.2 首次向部分非员工用户FSDV12.1.2,且首次包括HW4.0平台车辆,之前只有3.0平台 2024年2月10日 V12.2 FSDV12.2向内部员工和specialgroup(受邀加入抢先体验计划的用户)进行推送,仅包括3.0平台。(由于NHTSA召回而稍微延长了期限) 2024年2月19日 V12.2.1 向内部员工和受邀加入抢先体验计划的用户推送FSDV12.2.1,包括HW3.0和4.0平台。 2024年2月20日 V12.2.1 特斯拉向0.5-2%订阅了FSD的用户推送FSDV12.2.1而不仅限于特邀用户。包括加利福尼亚州以外的区域。包括S/X/3/YHW3.0和HW