Transformer大模型在自动驾驶中应用趋势明确。Transformer基于Attention机制,凭借优秀的长序列处理能力和更高的并行计算效率,2021年由特斯拉引入自动驾驶领域。Transformer与CNN相比最大的优势在于其泛化性更强。CNN只能对标注过的物体进行相似度的比对,通过不断学习完成对该物体识别的任务;而Transformer可以通过注意力层的结构找到更基本的元素与元素间之间多个维度的相关信息进而找到一种更泛化的相似规律,进而提高自动驾驶的泛化能力。同时,不同于RNN存在存储时间长度有限以及顺序依赖的问题,Transformer模型具有更高的并行计算效率并且可以学习到长时间距离的依赖关系。目前,Transformer主要应用在自动驾驶感知模块中从2D特征图向BEV鸟瞰图的视角转换。 城市领航辅助驾驶落地在即,AI大模型助力实现“脱高精度地图”。目前,主机厂正逐步从高速场景向城市场景拓展,2023年有望成为城市领航辅助驾驶的大规模落地的元年。相比于高速场景,城市场景所面临的Corner case大幅提升,要求自动驾驶系统具备更强的泛化能力。目前已落地城市NGP主要基于高精度地图方案,高精地图能够提供超视距、厘米级相对定位及导航信息,在数据和算法尚未成熟之前,对于主机厂实现高级别自动驾驶具有重要意义。但高精度地图应用过程中无法做到实施更新、法规风险高、高成本的三大问题难以解决。BEV感知算法通过将不同视角的摄像头采集到的图片统一转换到上帝视角,相当于车辆实施生成活地图,补足了自动驾驶后续决策所需要的道路拓扑信息,因而可以实现去高精度地图化。目前,小鹏、华为等头部自动驾驶厂商均明确提出“脱图时间表”,自动驾驶算法“重感知,轻地图”趋势明确。 大数据和大算力是大模型应用的重要前置条件。Transformer大模型量变引起质变需要1亿公里的里程数据。并且,传感器采集得到的raw-data需进行标注后才可用于算法模型训练,自动标注工具可大幅提升数据处理速度。2018年至今,特斯拉数据标注从2D人工标注逐步发展至4D空间自动标注;国内厂商中小鹏、毫末智行等亦相继推出自动标注工具大幅提升标注效率。除真实数据外,仿真场景是弥补训练大模型数据不足问题的重要解决方式。生成式AI有望推动仿真场景大幅提升泛化能力,帮助主机厂提升仿真场景数据的应用比例,从而提高自动驾驶模型的迭代速度、缩短开发周期。大算力是Transformer模型训练的另一重要条件,超算中心成为自动驾驶厂商重要的基础设施。特斯拉AI计算中心Dojo总计使用了1.4万个英伟达的GPU来训练AI模型,网络训练速度提升30%,国内厂商中小鹏与阿里联合出资打造自动驾驶AI智算中心“扶摇”,将自动驾驶算法的模型训练时间提速170倍。 关注标的:德赛西威,经纬恒润,寒武纪 风险提升:技术进步不及预期,法规风险,行业竞争加剧。 1.AI大模型如何应用于自动驾驶算法中? 算法是决定自动驾驶车辆感知能力的核心要素。当前主流的自动驾驶模型框架分为感知、规划决策和执行三部分。感知模块是自动驾驶系统的眼睛,核心任务包括对采集图像进行检测、分割等,是后续决策层的基础,决定了整个自动驾驶模型的上限,在自动驾驶系统中至关重要。感知模块硬件部分主要为传感器,软件为感知算法,其中算法是决定自动驾驶车辆感知能力的核心要素。 图1.自动驾驶系统分为感知、决策和执行三部分 1.1.神经网络加快自动驾驶感知算法发展,小模型向大模型迭代趋势明确 神经网络模型的应用驱动感知算法高速发展。早在上世纪70年代,学术院校和科研机构展开对自动驾驶技术的探索,早期的自动驾驶感知算法主要是基于传统计算机视觉技术,直到2010年之后随着深度学习技术的发展,神经网络被引入到自动驾驶感知算法中,自动驾驶汽车的感知效果有了质的提升。 应用于感知层面的神经网络模型可以分为两类,一类是以CNN、RNN为代表的小模型,另一类是Transformer大模型。神经网络是一种受生物神经元启发而产生的深度学习方法,由众多的感知机构成。感知机类似于生物学中的神经元,输入信号经过加权平均运算,若超过某一个阈值则向后传递信号,否则被抑制。不同的神经网络模型实际就是对感知机之间设定不同的逻辑关系。单个感知机工作的过程为:1)感知机前端相当于神经元树突,接受输入信号x,可以以向量表示x=(a,b,c),其中a、b、c分别来自上一个神经元或原始图像。2)输入信号与连接权重向量w=(w1,w2,w3)进行内积运算,这实际是对输入信号进行加权平均。3)在相当于神经元轴突的感知机后端设定一个阈值z,当加权平均值达到阈值即xw+z>0,则感知机被激活向后传递信号,否则感知机被抑制。4)此外,引入非线性因素保证输出连续,可以对xw+b整体施加一个激活函数。 T T 图2.一个感知机就类似一个生物神经元 1.1.1.1.深度神经网络DNN是人工智能的开端 深度神经网络(DNN)又叫多层感知机神经网络,其中有三个基本类型的层:输入层、隐藏层(或者叫中间层,可以有多个)、输出层。不同层之间的感知机全连接,在推理时,前向(从输入层到隐藏层到输出层)传递信号得到推理结果。在学习时则将误差(真实值和推理值的偏差)反向传递(从输出层到隐藏层到输入层),实现对感知机参数(连接权重和阈值)的更新,直至找到使得误差最小的一组感知机参数。在自动驾驶感知模块中输入数据为图像,而图像具有高维数(对比时间序列通常只是一维向量),对其识别时需要设置大量输入神经元以及多个中间层,模型参数量大难以训练且消耗算力高,并可能带来过拟合的问题。 图3.DNN架构:不同层感知机全连接,逐层单向传递信号 1.1.1.2.卷积神经网络CNN广泛用于特征提取 DNN识别图像的本质是对每一个像素点进行比对学习,因此效率较低。事实上,人类在对图像进行识别是并不需要对像素点进行逐个对比,而是通过图像的特征进行识别。例如识别人脸时,并不需要对每一个像素点都仔细观比对,而是先搜索脸部的轮廓以及眼睛、鼻子等特征,当这些特征同时出现,就可以判断图片中是一张人脸,基于这种思想,CNN卷积神经网络应运而生,本质上是在信息传入传统神经网络前先做一个特征的提取并进行数据降维,因此CNN图像处理高纬度向量的任务上更加高效。 图4.人类能够通过观察特征高效判别人脸 CNN能够高效率处理图像任务的关键在于其通过卷积层、池化层操作实现了降维,模型需要训练的参数量相比于DNN来说大幅降低,对硬件算力的要求也相对降低。CNN的模型结构在DNN的全连接层之前增加了卷积层和池化层,用于提取图像特征并降低数据维度。举例而言,对于一个8×8(64像素)的原始图片,CNN模型中设置一个大小为3×3的滤波器(即卷积核),“覆盖”在原始图片相同大小的区域之后,对应位置元素相乘求和;完成一个位置计算后,向其他区域平移直到覆盖整个原始图片。上述这一过程即“卷积”操作,其中卷积核的值为模型所需要学习的参数。卷积操作的优势在于卷积核与原始图像每一区域进行运算的参数相同,降低了模型所需要学习的参数量。池化(Pooling)操作是为了提取一定区域的主要特征,并进一步减少后续输入全连接层的参数量。如对卷积后6×6的特征图,选取2×2大小的窗口进行Maxpooling操作(即窗口内取最大值)后,特征图的长和宽都缩小到原来的1/2。 图5.CNN相比于DNN在全连接层之前加入卷积/池化层 图6.CNN通过卷积和池化操作提取图像特征并降低数据维度 但是CNN仍然存在一定的缺陷,多次池化会丢失一些的有价值信息,忽略局部与整体之间的关联性。例如进行面部识别时,多次池化位置信息有所损失,鼻子、眼睛、嘴特征同时出现,CNN就可能将其识别为人脸。因此CNN存在误判的概率。 图7.多次池化可能丢失特征位置信息,CNN可能误判 1.1.1.3.循环神经网络RNN有效处理有时间序列信息 在自动驾驶场景下,感知还需要时序的信息来完成目标跟踪以及视野盲区预测等感知任务。 循环神经网络RNN与CNN一样都是传统神经网络的扩展,相比于CNN在空间上进行拓展,RNN是在时间上的扩展,可以用于描述时间上连续输出的状态。例如自动驾驶场景中可能会出现前方大卡车造成遮挡,如果要判断视野盲区里是否有行人就需要结合被卡车遮挡前的信息,由此需要引入循环神经网络RNN对时序信息进行处理。RNN与DNN在结构上相近,区别在于RNN在隐藏层引入“循环”,即每一个隐藏层上的每一个记忆体(本质就是感知机)都与上一个时刻隐藏层上的所有记忆连接,这意味着某一时刻网络的输出除了与当前时刻的输入相关,还与之前某一时刻或某几个时刻的输出相关。引入了循环的隐藏层叫做循环核,RNN借助循环核提取时间特征,从而引入了时序上的相关性实现连续数据的预测。但是RNN的局限主要在于:1)循环核需要存储,意味着硬件需要具备更大的缓存。同时记忆体个数越多存储历史状态信息的能力越强、训练效果越好,但需要训练的参数量、消耗的资源也越多,二者共同制约RNN,使其难以学到长时间距离的依赖关系。2)RNN并行能力受限,由于某一时刻网络的输出不但与当前时刻的输入相关,还与上一时刻的输出结果相关,因此RNN无法进行并行计算,使得计算效率非常受限。 图8.RNN借助循环核提取时间特征,实现连续数据预测 1.1.2.Transformer大模型的注意力机制成为自动驾驶感知算法的利器 Transformer模型的关键在于计算输入序列元素之间的关系权重,最早在NLP领域大放异彩,2020年起在CV领域开始得到广泛应用。2017年,谷歌在NIPS发表论文《Attention is all you need》提出了Transformer网络结构,其基本思想为假设一个有逻辑的序列a=(a1,a2, a3, ..., ai, ...),如文章的文字序列、语音的声谱序列等,Transformer模型的关键是为每个token(元素)找到与其他token的关系权重。由此可见,Transformer在处理NLP这样的序列任务上具有天然的优势,并迅速成为NLP领域的主流模型。2020年,VIT(Vision Transformer)网络把一个图片按序切成一个个小片 (Patch)后再应用Transformer模型架构,标志着Transformer正式进军CV领域,并在目标检测、分割等任务中均表现出色。 图9.Transformer的目标是寻找元素间的权重关系 图10.Vision Transformer模型架构 Transformer成功的关键在于引入注意力(attention)机制。可以对注意力(attention)机制直观理解为“只关注重要的信息而非全部信息”,比如当我们视线扫过大片文字,注意力会停留在其中的关键词及关键词之间的逻辑关联上,而对其余信息则印象不深。神经网络模型中引入注意力记住的好处在于可以解决存储时间长度有限的问题(只关注过往信息中有用的而非全部),同时又没有重要信息的丢失。注意力机制可以通过运算得到一个矩阵,包含任一个元素和其他元素之间多角度的关联度的信息。如图所示,不同的颜色代表不同的维度,颜色越深代表在这个维度上两个元素关联度越高。举例而言,如果识别一个未知的物体X(木床),这个矩阵就代表在材料维度物体和木桶关联度最高,在形状维度和铁床关联度最高,通过神经网络训练后可以得到正确的结果。(这里的例子仅为方便理解,attention机制在实际应用时可以给出更基本的元素之间的相关性信息)。 图11.注意力机制能够获得一个元素和其他元素多角度相关度的矩阵 Transformer主要由编码器(Encoder)和解码器(Decoder)两部分组成,编码器负责把输入数据编码成一个向量表示,解码器则根据这个向量生成输出数据。其中编码器基于多头自注意力机制(Multi-Head Self-Attention),解码器基于多头交叉注意力机制(Multi-HeadCross-Attention)。在Tr