自动驾驶算法是感知、预测、规划控制的结合体 自动驾驶算法由感知、预测、规划控制构成。数据和仿真则通过数据驱动助力整个算法体系的成熟和完善。整个自动驾驶行为包含诸多组成部分,而市场努力的方向在于将这些环节不断优化。 大模型横空出世,自动驾驶算法有望迎来奇点 感知:BEV+Transformer横空出世,大模型推动自动驾驶迈向“平民化” 2021年特斯拉第一次推出BEV+transformer算法架构,用神经网络将多个2D的图像和传感器信息综合成为三维的向量空间方便下游规控模块处理,开启了自动驾驶新时代。该算法优势显著:(1)解决2D图像转换成3D空间深度预测难点,感知性能提升。(2)完美实现多摄像头、多传感器信息融合。(3)更易融入时序信息,让模型拥有“记忆”。(4)拥有实时建图能力,摆脱对高精度地图的依赖。 规控:算法由基于规则迈向基于神经网,大模型开始崭露头角 规划控制算法中,目前行业仍以基于规则的方式为主,但泛化性不足仍面临诸多长尾问题,同时不断“打补丁”完善算法会导致最终代码量庞大且难以维护。领军公司已开始将大模型引入其中,进而拥有更强的泛化能力和更好的驾乘体验。 端到端(感知决策一体化):大模型为自动驾驶彻底实现带来希望 感知、预测、规划、控制组合模块化部署模式,一方面,容易累计误差,另一方面,不同模块之间全局优化存在困难,因此端到端感知决策一体化算法成为自动驾驶行业共识的目标。英伟达、Uber、Wayve等公司进行了诸多探索。 数据:大模型推动数据闭环和仿真落地 数据闭环通常包含数据采集、挖掘、数据标注等环节,如何实现自动化运行同时降本增效是关键。目前行业推动大模型助力数据挖掘和自动标注,将加速产业成熟。仿真方面,逼真的仿真环境可替代实车数据的采集,是减少Cornercase的有效手段,大模型亦帮助实现自动化的场景生成等,完美提升模型自我迭代能力。 算法变局推动L3级自动驾驶加速到来 大模型时代,得算力者得天下。大模型可通过仿真、自动标注等方式显著提升车厂算法能力,车企纷纷加码数据中心。芯片格局有望受大模型影响而重塑。 Transformer大模型具有大参数、计算复杂等特点,芯片需要针对性开发加速器以实现在推理端良好运行,前瞻拥抱产业趋势的玩家有望在竞争中占得先机。最后,大模型推动下,L3级自动驾驶正加速到来,诸多车企推出自己的大模型解决方案,并有望迅速实现城市辅助驾驶落地,全产业链玩家均有望持续受益。 重点关注:德赛西威、经纬恒润、中科创达、华阳集团、北京君正、美格智能、晶晨股份、均胜电子 风险提示:技术发展进度不及预期、市场需求不及预期。 1、自动驾驶——数据驱动下的算法迭代 1.1、自动驾驶算法是感知、预测、规划、控制的结合体 自动驾驶算法反应了工程师们根据人的思维模式,对自动驾驶所需处理过程的思考。通常包含感知、预测、规划模块,同时辅助一些地图、定位等模块,实现自动驾驶功能的落地。 图1:自动驾驶算法框架包含感知、预测、规划、控制 1.1.1、感知:感知外部世界 感知模块主要解决四类任务:(1)检测:找出物体在环境中的位置;(2)分类:明确对象是什么,如分辨不同类别交通标志;(3)跟踪:随着时间的推移观察移动物体,通常采用跨帧追踪对象(将不同帧中检测到的对象进行匹配)、BEV加入时序信息等实现;(4)语义分割:将图像中的每个像素与语义类别匹配,如道路、天空、汽车等,用于尽可能详细了解环境。 以Apollo感知算法框架为例,其算法包含预处理、神经网络模型、后处理等模块。首先图像预处理主要是对图像进行调整、畸变校正等,使之更符合机器学习的要求。其次分别对红绿灯、车道线、障碍物等特征进行检测,其中红绿灯通过检测边框、颜色等进行进一步的识别;障碍物则经过2D到3D的转换,得出真实的信息坐标,再融合车道线检测信息、外部传感器信息等得出真实世界的障碍物信息。该部分通常采用全卷积神经网络或者YOLO等算法实现。 图2:百度Apollo视觉算法模块包含诸多视觉处理任务 1.1.2、预测:理解外部环境和当前状态 预测模块实际上是算法对外部环境和自车状态的理解。预测模块首先收集感知模块输入的车道线、障碍物、红绿灯、地图、定位等信息对主车的状况进行判断。 其次场景感知模块对外部障碍物的优先级、路权等外部环境对主车的影响进行感知。 评估器则会根据场景信息和障碍物信息判断出障碍物的轨迹或意图。预测器则根据短期的预测轨迹和意图判断障碍物等外部环境相对长期的轨迹。这将为未来汽车的规划提供重要的参考。算法层面通常以RNN为主。 图3:百度Apollo的算法中,预测模块包含场景理解、评估、预测等环节 1.1.3、规划:思考如何行动 规划指找到合理路径来到达目的地。规划通常分为全局路径规划、行为规划与运动规划几个部分。其中,全局路径规划指智能汽车依靠地图规划出理想状态下到达目的地的路径。行为规划则是主车在实际行驶的过程中,面临实时的交通环境,做出的各类驾驶行为,如跟车、换道、避让等。运动规划生成与驾驶行为对应的驾驶轨迹,包含路径规划和速度规划。最后再采用一些优化方式让变道加速等行为变得平顺以满足舒适性要求。算法层面,通常采用基于规则的规划决策算法,前沿的玩家也开始引入机器学习等方式,以提升决策效能。 图4:规划部分决定汽车将如何行动 1.2、数据:算法的养料,现实与虚拟的交织 算法、算力和数据是人工智能的三大要素,数据在模型训练中拥有不可忽视的影响。一方面,Transformer等大模型在大体量数据集训练下才能表现更佳的特性带来其对训练端数据的要求激增,特斯拉在2022年AIDAY上曾表示,训练其占用网络采用了14亿帧图像数据。另一方面,由于自动驾驶面临的场景纷繁复杂,诸多长尾问题需要在现实或虚拟场景中获取。因此数据闭环在自动驾驶领域弥足重要。毫末智行将数据作为“自动驾驶能力函数”的自变量,认为是决定能力发展的关键,Momenta也曾表示,L4要实现规模化,至少要做到人类司机的安全水平,最好比人类司机水平高一个数量级,因此需要至少千亿公里的测试,解决百万长尾问题。 图5:自动驾驶长尾问题出现概率较低 图6:毫末智行认为自动驾驶能力与数据量直接相关 数据挖掘和针对性的训练能显著减少CornerCase。以特斯拉为例,在面临一个看起来像临时停车但实际上是永久停车的场景时,最初算法会将其判定为临时停车。 当特斯拉通过数据挖掘在训练集中增加了1.4万个类似场景的视频并训练模型后,神经网络便理解了这辆车里面没有司机,将其判别为永久停车。 图7:数据可显著改善自动驾驶的CornerCase情况 2、大模型横空出世,自动驾驶奇点来临 早期自动驾驶方案采用激光雷达+高精度地图为主。早期市场以传统计算机视觉和专家系统为基础构建辅助驾驶功能,随后人工智能的蓬勃发展让深度学习在自动驾驶领域被广泛使用,以waymo为代表的自动驾驶先驱玩家开创了激光雷达+高精度地图的感知范式,Cruise、百度等巨头纷纷效仿。该方案中,对道路结构、车道线等静态环境元素的感知强依赖高精度地图,而实时的动静态障碍物信息则强依赖激光雷达。高精地图成为一项“基础设施”,将很多在线难以解决的问题提前存储到地图数据中,行车时作为一项重要的感知数据来源,减轻传感器和控制器的压力。由于该方案只能在有图地区行驶,也被一些人形象的称为“有轨电车”。 图8:Cruise等公司采用高精度地图+激光雷达解决方案 图9:Waymo无人驾驶出租车拥有先进的传感器 高昂的单车成本和高精度地图成为自动驾驶大规模推广瓶颈。Robotaxi成本高昂(Yole统计早期Waymo为代表的的自动驾驶汽车改装成本约为20万美元),高精度地图采集制作以及合规要求繁杂(量产落地过程中,高精度地图面临:采集成本高;人工修图制图费时费力;地图鲜度不足;国内法规严格等困难),带来该方案的泛化性较差。经过数十年的发展,Robotaxi的使用范围仍被限制在特定区域,使用对象也仅局限在商用车领域。市场亟待出现一种单车性能强大、成本低廉的自动驾驶解决方案。 2.1、BEV+Transformer横空出世,大模型推动自动驾驶迈向普及 2021年特斯拉推出BEV+transformer、重感知轻地图的自动驾驶解决方案,开启了自动驾驶行业新的篇章。 2.1.1、BEV感知助力成为感知外部世界标准范式 BEV全称为Bird’s Eye-View(鸟瞰图),即通过神经网络将各个摄像头和传感器获取的信息进行融合,生成基于俯视的“上帝视角”的鸟瞰图,同时加入时序信息,动态的对周边环境进行感知输出,便于后续预测规划模块使用。正如人类一样,驾驶行为需要将各处观察到的信息综合到统一的空间中,来判别什么地方是可以行驶的区域。究其原因,驾驶行为是在3D空间中的行为,而鸟瞰图则是将2D的透视空间图像转换为3D空间,不存在距离尺度问题和遮挡问题,使得算法可以直观的判断车辆在空间中的位置以及与其他障碍物之间的关系。 图10:BEV视角更加直观,便于规划和决策驾驶路径和行为 2.1.2、Transformer大模型为构建BEV空间提供最优解 2021年特斯拉在AIDay上第一次将BEV+transformer的算法形式引入到自动驾驶,开启了自动驾驶的崭新时代。首先BEV空间的构建,实际上就是寻找一种恰当的方式,将多个2D的图像和传感器信息综合转化成为一个3D的向量空间。经过多次尝试,特斯拉最终引入了Transformer大模型来实现这一转换。 Transformer大模型是近年人工智能领域的热门算法,其主要通过注意力机制来分析关注元素之间的关系进而理解外部世界。早年被应用于自然语言处理领域,后续延展到计算机视觉等多个方向。算法的优势显著: 具有更好的全局信息感知能力:Transformer模型更关注图像特征之间的关系,因此会跟多关注整个图像的信息,卷积神经网络更多关注固定大小区域的局部信息,因此Transformer在面对图像中长程依赖性的问题拥有更好的表现。 天花板高企适用于大规模数据训练场景:在图像识别能力方面,Transformer拥有更高的上限,随着训练数据量的增长,传统CNN模型识别能力呈现饱和态势,而Transformer则在数据量越大的情况下拥有更好的表现。而自动驾驶洽洽为面向海量的数据场景,要求有足够好的精度的场景。 拥有多模态感知能力:Transformer可实现多模态数据的处理,应对图像分类、目标检测、图像分割功能,并实现对3D点云、图像等数据的融合处理。 灵活、较好的泛化性能:Transformer可适用于不同大小的输入图像,同时外部环境包含扰动的情况下仍能保持较好的检测性能。 但CNN网络在提取底层特征和视觉结构方面有比较大的优势,而在高层级的视觉语义理解方面,需要判别这些特征和结构之间的如何关联而形成一个整体的物体,采用Transformer更加自然和有效。同时CNN也拥有更好的效率,可以采用更低的算力实现效果。因此业界通常会将CNN和Transformer结合来进行物体识别。 图11:Transformer可将多张2D图像和传感器信息融合并转化为3D视角 2.1.3、特斯拉引领打开自动驾驶天花板 特斯拉的自动驾驶算法结构中,首先将摄像头信息无损采集,送入卷积神经网络Regnet来提取不同尺度的图像特征,接着使用BiFPN进行特征融合,然后将这些特征送入Transformer模块,利用Transformer中的多头注意力机制来实现2D图像特征到三维向量空间的转换和多摄像头特征系信息的融合,之后接入不同的“头”如交通标志检测、障碍物检测等,来实现不同任务的处落地,形成一套优雅的,可完美实现数据驱动的感知算法。由于不同的“头”之间采用了共享的特征提取网络,因此被特斯拉起名为“九头蛇”算法架构。 图12:特斯拉采用“九头蛇”算法架构 特斯拉的BEV+Transformer算法中两个环节尤为关键: (1)2D图像到3D空间的