证券研究报告|行业深度 汽车整车 2023年11月7日 特斯拉FSD自动驾驶方案深度解析 证券分析师 姓名:俞能飞 资格编号:S0120522120003 邮箱:yunf@tebon.com.cn 0 目录CONTENTS 01 02 03 04 概要 特斯拉FSD架构详解FSDV12展望 投资建议 请务必阅读正文之后的信息披露及法律声明。1 01概要 ABSTRACT概要 FSD为一套包含感知/规控/执行的全链路自动驾驶软硬件架构 Occupancy ——我周围有什么?如何分布 Lanes&Objects ——周围的物体下一步去哪里 规划 Planning —我该怎么走 感知 NeuralNetworks ——为什么要这么走 数据 TrainingData ——这么走是正确的吗 AutoLabeling ——数据标注 TrainingInfra ——拿什么运算 Simulation ——仿真模拟 DataEngine ——数据引擎 AICompiler&Inference ——如何在计算机上运行神经网络 硬件平台软硬耦合 资料来源:TESLA2022AIday,youtube,德邦研究所 02特斯拉FSD架构详解 FSD为一套包含感知/规控/执行的全链路自动驾驶软硬件架构 FSD架构:在数据、算法、算力等各个层面打造了一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构 规划(Planning):本质是解决多物体关联路径规划问题,处理自我和所有对象的行进轨迹,指导汽车完成相应的执行动作 神经网络(NeuralNetworks):通过分析视频流等信息,输出完整的运动学状态(位置/速度/加速度/颠簸)控制车辆 训练数据(TrainingData):通过最新的4D自动标注技术、升级模拟仿真及云端计算资源,形成数据闭环 训练基础设施(TrainingInfra):包括CPU、GPU、神经网络加速器单元(NeuralNetworkAccelerator)、AI编译器等,其中AI编译器能够 支持神经网络所需的新操作,将它们映射到最佳的底层硬件资源上 AI编译与推理(AICompiler&Inference):即如何在计算机上运行神经网络。当前的推理引擎能够将单个神经网络的执行分配到两个独立的芯片系统上执行,可以理解为有两台独立的计算机在同一台自动驾驶计算机内相互连接 图表:特斯拉FSD架构 资料来源:TESLA2022AIday,youtube,德邦研究所 2.1 自动驾驶规划(Planning) ——我该怎么走? 采用混合规划系统,提供最优规控解决方案 图表:十字路口三种不同方案的选择 ×方案一:抢在行人前面通过 ×方案二:在行人和右面来车之间通过√方案三:找到合适的间隙,在不干扰其他车辆的情况下通过 自动驾驶规控的目标:基于感知网络输出的结果,通过规划汽车行为和行车路径使得汽车达到指定目的地,同时尽可能确保行车安全性、效率性和舒适性 资料来源:TESLA2022AIday,youtube,德邦研究所图表:FSD最终规划路线选择 资料来源:TESLA2022AIday,youtube,德邦研究所 特斯拉FSD解决方案:将传统规划控制与神经网络算法相结合,构建一 套【混合规划系统】,依靠“互动搜索(InteractionSearch)”的框架,以任务分解的方式对一堆可能的运动轨迹进行并行研究 图表:特斯拉视觉规控解决方案 三维向量空间 基于既定目标进行初步搜索 凸优化 持续微调优化 全局最优解 资料来源:TESLA2021AIday,youtube,德邦研究所 基于VectorSpace的FSD路径规划,能够快速产生最优解 具体解决路径:从一组视觉测量开始,包括车道、占用率、移动物体等(这些都表现为稀疏的抽象和潜在特征),感知得到的VectorSpace,通过VectorSpace规划出后续潜在目标状态,进一步考虑细分互动,得到决策规划的路径 图表:FSD互动搜索框架 资料来源:TESLA2022AIday,youtube,德邦研究所整理 决策树生成 •最初用经典的优化方法来创建规划路径,随着约束条件增加,每个动作都需要1-5ms的时间 •最终建立了轻量级可查询网络。 【Tesla车队中人类驾驶员驾驶数据】VS【宽松时间约束的离线条件下系统规划的全局最优路径】,两者不断进行对比训练。能够在100us内生成一个候选规划路径 决策树剪枝/评分 •采用混合规划系统,将传统方法与数据驱动相结合,通过四个方法进行候选路径评估完成剪枝 基于VectorSpace的FSD路径规划,能够快速产生最优解 对于未知及不确定性(cornercase)的决策——通过OccupancyNetwork对可视区域进行建模用来处理未知不可见场景 •需要根据这些假想的参与者做相应的保护性驾驶,将控制反应与存在可能性函数相协调,得到非常类似人的行为 图表:通过OccupancyNetwork对可视区域进行建模用来处理未知不可见场景 资料来源:TESLA2022AIday,youtube,德邦研究所整理 至此,特斯拉FSD最终架构浮出水面: •首先,通过视觉感知网络生成三维向量空间,对于仅有唯一解的问题,可直接生成明确的规控方案,而对于有多个可选方案的复杂问题,使用向量空间和感知网络提取的中间层特征,训练神经网络规划器,得到轨迹分布 •其次,融入成本函数、人工干预数据或其他仿真模拟数据,获得最优的规控方案 •最终生成转向、加速等控制指令,由执行模块接受控制指令实现自动驾驶 图表:特斯拉FSD感知-规划-控制整体架构 资料来源:TESLA2021AIday,youtube,德邦研究所 2.2 神经网络(NeuralNetworks) ——为什么要这么走? 算法经历多次迭代,BEV+Transformer+Occupancy为当前架构 图表:特斯拉FSD算法迭代历程 资料来源:汽车之心微信公众号,德邦研究所 2.2.1 占用网络(OccupancyNetwork) ——我周围有什么?如何分布 升级至Occupancy能够有效优化障碍物识别问题 图表:Occupancy有效解决了一般障碍物识别问题 资料来源:THINKAUTONOMOUS官网,德邦研究所 HydraNets(九头蛇网络)为视觉感知网络的基础结构 Head 进行多任务训练并输出感知结果 图表:特斯拉HydraNets(九头蛇网络)架构示意图 Head Head Neck 在BEV空间内进行特征层融合,并融入时序信息 cache Backbone 网络基础结构—九头蛇网络(HydraNets)由主干 (Backbone)、颈部(Neck))与多个分支头部(Head)共同组成。主干层将原始视频数据通过残差神经网络(RegNet)及多尺度特征融合结构(BiFPN)完成端到端训练,提取出颈部层的多尺度视觉特征空间(multi-scalefeatures),最后在头部层根据不同任务类型完成子网络训练并输出感知结果 •优势一:特征共享(FeatureSharing)。使用同一主干网络提取特征并共享给头部使用,可以在测试阶段分摊在车上运行的前向判断,避免不同任务之间重复计算现象,提升网络运行效率 •优势二:任务解耦(De-CouplesTasks)。不同类型子任务之间可以进行解耦,这样可以单独处理每一项任务,对单项任务的升级不必验证其他任务是否正常,升级成本更低 •优势三:特征缓存(RepresentationBottleneck)。 输入原始数据,通过backbone进行特征提取 因为这里存在颈部,可以将特征缓存到硬盘,具有较强 的扩展性 资料来源:TESLA2021AIday,youtube,德邦研究所整理 通过端到端的感知训练模型,从数据输入到空间向量输出 Step1图像输入(ImageInput):校准每个相机的图片,将原始12位RGB图像(而非典型的8位)输送给网络。多了4位信息能够使得动态范围提升16倍,同时减少延迟(无需在循环中运行图像信号处理ISP) Step2图像校准(Rectify):通过不同的汽车采集到的数据共同构建一个通用感知网络架构,不同汽车由于摄像头安装外参的差异,可能导致采集的数据存在微小偏差,为此特斯拉在感知框架中加入了一层“虚拟标准相机(virtualcamera)”,引入摄像头标定外参将每辆车采集到的图像数据通过去畸变、旋转等方式处理后,统一映射到同一套虛拟标准摄像头坐标中,从而实现各摄像头原始数据校准,消除外参误差,确保数据一致性,将校准后的数据传输给主干神经网络进行训练 Step3特征提取(ImageFeaturizers):用一组RegNet(特定残差网络,specificclassofresnets)和BiFPN(加权双向特征金字塔网络)作为提取图像空间特征的主干 图表:加入virtualcamera校准图像数据偏差 资料来源:TESLA2021AIday,youtube,德邦研究所 通过端到端的感知训练模型,从数据输入到空间向量输出 Step4构造空间位置(SpacialAttention):将摄像头采集到的数据通过【BEV空间转换层】构造一组3D位置,同时将图像信息作为键(key)值(value),输入给一个注意力模型(核心模块是【Transformer神经网络】)。注意力模型的输出是高维空间特征,这些高维空间特征与车辆上的里程数据进行暂时协调,来推导出运动。该方案厉害之处在于可以将地面坡度、曲率等几何形状的变化情况内化进神经网络的训练参数中 Step5时间对齐(TemporalAlignment):上述高维空间暂时特征经过一组反卷积,产生最终的占用率和占用率流输出。它们生成的是固定尺寸块的网格,为了提高精度,模型还生成了pervolexfeatureMAP输入到MLP中,借助3D空间点查询(query)来获取任意点的位置和语义信息 图表:BEV+Transformer实现二维图像空间向三维向量空间的转变 资料来源:TESLA2021AIday,youtube,德邦研究所 图表:通过输入视频片段为自动驾驶增添短时记忆能力 资料来源:TESLA2021AIday,youtube,德邦研究所 2.2.2 车道线及障碍物感知(Lanes&Objects) ——周围的物体下一步去往哪里? 基于3DOccupancy迭代车道线及障碍物感知模型 早期,将车道检测问题建模为一个图像空间内实时分割的任务,只能从几种不同的几何形状中辨别车道。具体而言,可以分别出当前车道、相邻车道,能特别处理一些交叉和合并的情况,然后用粗略的地图数据对其进行增强。这种简化模型对高速这种高度结构化的路是有效的 当前,引入MapComponent,使用了低精度地图中关于车道线几何/拓扑关系的信息(车道线数量/宽度、特殊车道属性等),并将这些信息整合起来进行编码,与视觉感知到的特征信息一起生成车道线(DenseWorldTensor)给到后续VectorLane模块 图表:车道线及障碍物感知模型 基于2DBEV基于3DOccupancy,是具有高低起伏变化的车道线感知 资料来源:TESLA2022AIday,youtube,德邦研究所 问题一:如何预测车道? 图表:特斯拉车道预测方案 从某一点(绿点)开始进行预测描绘 先对现实世界做粗略处理,做一个可能的位置热点图,锁定在可能性最大的位置上。以此为条件对预测进行改进,获得准确的点 √ 最有可能的位置 然后不断重复该过程,直到枚举 了车道中所有的点车道图—也即希望从网络上获得最终结果 × 该位置被编码到一个离散化的3D粗略网络中,但并不直接在3D网格中做预测描绘(计算成本较高) 资料来源:TESLA2022AIday,youtube,德邦研究所 问题二:如何预测道路上其他对象的未来行为 图表:障碍