证券研究报告 汽车行业报告领先大市-A(维持)2024年6月26日 智能驾驶系列报告(二):特斯拉智能驾驶方案简剖 分析师:李蕙S0910519100001 联系人:戴筝筝 本报告仅供华金证券客户中的专业投资者参考请仔细阅读在本报告尾部的重要法律声明 不同于绝大多数国内车企在自动驾驶上采取多传感器融合方案,特斯拉FSD在发展初期就摒弃激光雷达、且不配备高清地图,成为在感知层以摄像头为核心的纯视觉解决方案代表;其依靠车身搭载的摄像头来捕捉周围的环境信息,并经过算法及神经网络模型处理,最终输出3D场景下的信息用于智能驾驶。 FSD智能驾驶的实现基于特斯拉独树一帜的软件算法,创新性的提出BEV+Transformer+OccupancyNetwork的感知范式,并成为全球首家“端到端”神经网络量产上车的企业,实现了从繁琐规则驱动到数据驱动的简化,小鹏、蔚来等多家国内车企纷纷追随;硬件端方面,特斯拉持续增加摄像头数量,对其他传感器则倾向于做“减法”,以更好地适配其纯视觉技术路线。 得益于数据量、算力投入、硬件适配度等方面的明显占优,特斯拉在依赖算力的纯视觉解决方案上遥遥领先国内厂商,FSD智驾拟人化程度高、安全性及可靠性更为凸显、且能有效节省运算空间及成本;但同时,FSD作为纯视觉方案在恶劣天气等场景下的性能较弱,其买断价也较国内市面上其他高阶辅助驾驶软件更高,或系特斯拉需改进的方面。 中国作为全球新能源汽车最大的市场,是各车企发展智驾的最优之选;然而,缺乏冗余设计或引发的驾驶安全问题、以及缺少测绘资质或带来的数据安全问题,均成为阻碍特斯拉入华的重要因素。硬件设计方面,特斯拉在HW4.0中重新加入高精度4D毫米波雷达,纯视觉方案的驾驶安全性问题或有望改善;数据安全方面,特斯拉则借力百度获得车道级导航地图,并拟在中国建立数据中心。截止2023年年底,特斯拉在中国市场的累计销量超过170万辆;假设FSD在现役中国特斯拉汽车中渗透率为5%-36%,预计新增收入54.4亿元-391.68亿元。 风险提示:智驾行业发展不达预期、核心零部件价格波动、技术迭代及产品研发滞后、上市公司业绩不达预期、政策风险、数据信息统计及模型测算偏差风险、过去经验不代表未来、系统性风险等。 01 特斯拉FSD的发展历程——化繁为简 02 解析特斯拉FSD 03 特斯拉FSD进入中国市场的进度 04 特斯拉FSD产业链概况及相关标的 05 风险提示 01 特斯拉FSD的发展历程——化繁为简 1.1特斯拉FSD自动驾驶方案 1.1.1FSD是特斯拉辅助驾驶方案中功能最完整的产品 1.1.2特斯拉作为纯视觉方案引领者,摄像头是FSD智驾的核心 1.2算法端迭代:全球首个“端到端”神经网络量产上车,实现对繁琐规则编写的替代 1.3硬件端迭代:高度依赖摄像头,对其他传感器则倾向于做“减法” 1.1.1FSD是特斯拉辅助驾驶方案中功能最完整的产品 特斯拉的自动驾驶方案包括基础版自动辅助驾驶(AP)、增强版自动辅助驾驶(EAP)、以及完全自动驾驶(FSD);其中, FSD全称FullSelf-Driving(完全自动驾驶),是特斯拉辅助驾驶Autopilot产品组合中功能最完整的产品。 图:特斯拉各类自动驾驶方案的不同功能 图:特斯拉FSD智驾包可实现的功能 功能上来看,特斯拉FSD除基础的主动巡航及车道维持居中外,还可以实现:1)自动辅助导航驾驶,包括自动驶入和驶出高速公路匝道或立交桥岔路口,超过行驶缓慢的车辆;2)自动辅助变道,包括高速公路上自动辅助变换车道;3)自动泊车,包括平行泊车与垂直泊车;4)智能召唤则是在合适的场景下,停在车位的车辆会响应召唤、驶出车位并前往车主所在位置;5)交通灯、标志识别;6)市区自动辅助转向,检测车道、车辆和障碍物,并操作车辆进行转向;7)自动速度偏移调整,可根据不同的环境和场景,自主调整车辆的行驶速度。 自驾功能 AP (基础版自动辅助驾驶) EAP(增强版自动辅助驾驶) FSD(完全自动驾驶) 主动巡航/跟车 ☻ ☻ ☻ 车道维持/居中 ☻ ☻ ☻ 自动辅助导航驾驶 ☻ ☻ 自动变换车道 ☻ ☻ 自动泊车 ☻ ☻ 召唤/智慧召唤 ☻ ☻ 交通识别/标志识别 ☻ 市区自动辅助转向 ☻ 自动速度偏移调整 ☻ 不同于大部分国内厂商多传感器融合方案,特斯拉FSD自动驾驶是以摄像头为核心的纯视觉解决方案。 纯视觉方案的最初设计灵感来自对人类视觉的研究;即人眼睛搜集的信息到达视网膜后,经过大脑皮层的多个区域、神经层,最终形成生物视觉,并在脑中生成图像。特斯拉的目标就是通过算法、软件及硬件来设计汽车的视觉皮层,建立像人脑一样的、基于视觉的计算机神经网络系统。 图:人类的视觉神经网络系统 图:特斯拉FSDHW2.0/2.5/3.0装配的8颗摄像头 首先,在特斯拉汽车行驶过程中,车辆通过摄像头收集环境图像信息;特斯拉HW2.0/2.5/3.0版本硬件都配备了8颗监测不同方位的摄像头,分别为三颗前置摄像头(其中1颗主摄像头、1颗广角摄像头、1颗窄视长焦摄像头)、2颗前侧摄像头、2颗后侧摄像头、以及1颗后置摄像头。 可以看到,车辆周围的8个摄像头通过神经网络生成三维向量空间;向量空间中包含了自动驾驶所需要的信息,如线条、边缘、路缘、交通标志、红绿灯、以及汽车的位置、方向、深度、速度。流程来看,由“眼睛(摄像头)”获得的上述信息将在神经网络“大脑(处理器)”中进行处理判断,然后给“腿脚(行驶车辆)”下达动作指令。 图:特斯拉FSDHW2.0/2.5/3.0装配的8颗摄像头 FSD特征: FSD的设计哲学在于打造一个闭环的、端到端的决策系统,意味着车辆不仅要具备感知环境的能力,还要能理解环境信息并做出驾驶决策,且所有行为都由车辆自身完成,无需依赖外部基础设施的辅助。 首先,驾驶辅助系统通过学习各种路况视频,得出一个参数调优后的神经网络;优化后的神经网络被部署到以HW3.0为例的硬件上,根据车辆 摄像头获得的图像进行推理,得出车辆控制决策。 但同时,若车辆遇到各类“边角案例”或驾驶员操作与系统“预想”操作不一致时,车辆都会脱敏匿名将实际情况上传给特斯拉云端服务器,通过庞大的集中算力进行深度学习以优化系统;马斯克曾表示“一辆汽车学会一件事后,所有车辆就都学会了。” 1.2算法端迭代 自动驾驶的算法模块通常分为“感知”、“决策规划”、“运动控制”。其中,“感知”模块是自动驾驶的核心,大部分的技术升级都集中在感知模块,其目的是让车辆对驾驶环境的“感知”达到人类感知的级别;而“决策规划”则是基于“感知”模块输出的结果,通过规划汽车行为和行车路径,使得汽车达到指定目的地,且尽可能确保行车安全性、效率性和舒适性。 图:自动驾驶的算法框架 图:特斯拉FSD从“局部最优解”到“全局最优解”的演变 感知层面,特斯拉经历了由“特征提取网络RegNet”向“BEV+Transfomer”、再向“BEV+Transfomer+OccupancyNetwork”转变,决策规划层面则自2021年由“Rule-based”向“Machinelearning-based”逐步倾斜;直至2024年1月,特斯拉通过推出FSDV12Beta,成为全球首个“端到端”神经网络量产上车的企业,实现了感知、决策、规划相融合。 1.2.1算法1.0:2016年开启自研算法,采用人工标注+特征提取网络进行物体识别 (1)2016-2018年:特斯拉采用常规的骨干网结构,并对数据采取人工标注。 2014年特斯拉发布的第一代硬件Hardware1.0,软硬件均由Mobileye提供;然而在2016年特斯拉发生的“全球首宗自动驾驶致命事故”,导致双方合作结束。 2016年特斯拉开启自研算法阶段,首先对数据采用人工标注,并通过Facebook提出的特征提取网络RegNet进行物体识别。初始的数据都是需要人工来标注,如将图像中的物体(人、车、马、狗等)形态、类别及对应坐标一并输入到神经网络中,神经网络就对上述物体有了一定的认知。随后,采用特征提取网络RegNet进行物体识别;在该特征提取网络中,最底部有着极高的分辨率和较低的通道数用于检查图像细节,而在顶部有着极高的通道数和较低的分辨率则用于理解场景上下文语义信息。比如分辨率最高的一层看到一辆车、但不太确定,最后一层分辨率最低的就通过语义关联告诉第一层这极有可能是一辆车,这样就完成了一次识别。 出现的问题: 图:神经网络RegNet进行物体识别 图:对数据进行人工标注 在自动驾驶的场景中,往往需要在一个神经网络中同时完成多项任务,比如车道线检测,人物检测与追踪等,进而引发了该算法出现head不够用的情况。 1.2.2算法2.0:构建多任务学习神经网络架构,减少任务间的相互干扰 (2)2018-2019年:构建多任务神经网络架构HydraNet(“九头蛇网络”)。 特斯拉构建了多任务学习神经网络架构HydraNet,能够基于相同的视频输入,分别进行若干任务(检测或判别);将上述任务聚合在新的架构布局中,使他们拥有共享的Backbone(骨干),并将分支分成若干个Head(头部),这种架构被称为HydraNets。HydraNet能够减少重复的卷积计算,减少主干网络计算数量,还能够将特定任务从主干中解耦出来,进行单独微调,比如车道识别、红绿灯识别等任务都有专门的Head来负责,减少不同任务间的相互干扰。 出现的问题: 1)自动驾驶依靠过去的「2D图像+CNN」实现全自动驾驶的可能性较低,主要系摄像头采集的数据是2D图像,但自动驾驶需要面对的却是三维真实世界。 图:多任务学习神经网络架构HydraNet 图:行驶过程中,不同任务采用不同颜色标注 2)随着数据的逐步增加,出现人工标注效率低、且沟通成本高等问题。 (3)2019-2020年:感知层引入BEV+Transfomer架构实现图像升维,并使用自动标注系统;FSD首次发布并上车内测。 在特斯拉看来,2D图像升维的最佳方式是BEV(鸟瞰图),目的是建立一个从空中俯瞰的平面图,来描绘车辆周围的事物以及他们的位置关系。那么需要做的是,将8个摄像头拍摄的画面物体投射到2D画面当中,画中的像素就相当于大语言模型中的分词,像素与像素之间、或者说是特征与特征之间存在长距离依赖关系,由此通过Transformer中的注意力机制把每个像素映射到相对应的地方;而且,即便是某个摄像头的画面像素被暂时地遮挡,也可以根据依赖关系继续存在。Transformer的引入,使得BEV视角在自动驾驶领域得以实现;而3D空间的引入,也使得自动驾驶的思维方式更接近于真实世界。 2018年特斯拉自建了标注团队,人员规模超过1000人;随着数据的扩大,人员及成本压力较大。2020年开始,特斯拉研发并使用了数据自动标注系统;在车辆行驶过程中,摄像头收集的路面信息,打包上传到服务器的离线神经网络大模型,由大模型进行预测性标注,再反馈给车端各个传感器;特斯拉进入“半自动标注”阶段。 图:特斯拉通过采集2D图像建立鸟瞰平面图 软件方面: 1)2020年10月,特斯拉FSDBeta版本首次发布并开启内测;2021年初,马斯克宣布FSDBeta编号从V8.1开始。 2)FSD功能基本在V8版本中奠定;功能涵盖NOA导航辅助驾驶、Summon智慧召唤、Autopark自动泊车、识别交通灯和停车标志并作出反应、城市街道自动转向等。 图:算法无法识别超载三轮车的货物 出现的问题: 1)BEV仍然是对瞬时的图像片段进行感知,汽车只能根据当前时刻感知到的信息进行判断,自动驾驶存在一定的安全隐患。例如,在感知时刻如果行人正好被汽车遮挡,则无法识别到穿行的行人;而人类司机在面对类似场景时,则会根据此前看到行人在穿越马路的记忆,能够意识到行人有继续穿越马路的意图,从而选择减速或者刹车避让。 2)算法无法识别或认全