您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:AI+汽车智能化系列之五:智驾算法步入深水区,头部玩家有望持续领跑 - 发现报告
当前位置:首页/行业研究/报告详情/

AI+汽车智能化系列之五:智驾算法步入深水区,头部玩家有望持续领跑

交运设备2024-05-31黄细里、杨惠冰东吴证券郭***
AI智能总结
查看更多
AI+汽车智能化系列之五:智驾算法步入深水区,头部玩家有望持续领跑

证券研究报告·行业研究·汽车与零部件 AI+汽车智能化系列之五—— 智驾算法步入深水区,头部玩家有望持续领跑 汽车行业证券分析师:黄细里 执业编号:S0600520010001 联系邮箱:huanxl@dwzq.com.cn联系电话:021-60199790 汽车行业证券分析师:杨惠冰 执业编号:S0600523070004 联系邮箱:yanghb@dwzq.com.cn 2024年5月31日 2 何谓“大模型”?大数据喂养神经网络算法,设定规则机制使其自成长。1)多模态数据是基础,包括文本/图像/音频/视频等在内的多类型数据喂养,驱动算法更好完成理解/生成等任务。2)Transformer是核心,Self-Attention机制强化算法抽象特征提取能力,并支持并行计算,高能且高效,衍生ViT/DiT支持多模态数据理解/生成。3)ChatGPT及Sora为代表应用,在大参数加持下,开发多模态自然语言处理以及文生视频等功能。4)世界模型为未来方向,算法能力由数据驱动演变为认知驱动,模型具备反事实推理和理解物理客观规律的能力,提升通用泛化特性。 大模型重塑车端算法架构,加速云端算法迭代;世界模型或为完全自动驾驶最优解。智驾一阶段 (L2~L3)脱胎换骨:由场景驱动转向数据驱动,大模型带来底层架构质变;智驾二阶段 (L3~L4)厚积薄发:由数据驱动转向认知驱动,数据和算力逐步累计驱动能力提升,量变引起质变。1)车端:上层感知/规控应用层算法随功能需求提升持续进化,“场景理解处理能力泛化是核心诉求。L2~L3,感知端为升级核心,Transformer加持BEV+占用网络算法落地感知端到端解决长尾场景识别难题;L3~L4以规控算法升级为核心,精准识别并快速处理,Learning-base逐步取代Rule-base,端到端拉高场景处理能力的天花板。2)云端:数据闭环为前提,加速大数据有效利用,采集/标注/仿真/训练/部署一体化。Transformer赋能自动标注,数据驱动场景仿真泛化,降低对有限的实际路测数据的依赖。3)世界模型【通用具身智能】或为自动驾驶最优解。车端场景生成泛化,将自动驾驶问题转化为预测视频的下一帧,类人模式处理,实现泛化至数据场景以外的能力;并可快速生成标准化仿真数据,结合大算力加速云端训练。 算法实现高壁垒+数据闭环硬要求,未来智驾算法产业格局趋于集中化。当前下游L3+高阶算法方案以OEM自研为主,华为以“算法赋能,数据回传”的形式深度绑定OEM;L3以下算法呈现OEM+独立算法商+硬件商三足鼎立格局。我们认为,考虑高阶智驾功能的提升对于算法能力/组织架构/超算中心/完整数据链等的要求,未来“掌握硬件的基础上去发展软件”或为主流,即掌握壁垒最高的硬件——芯片;提供性价比最高的硬件——传感器;掌握粘性最强的硬件——整车 3 投资建议:汽车AI智能化转型大势所趋,算法为主干,看好头部算法玩家持续领先铸就高壁垒。 全行业加速智能化转型,产业趋势明确。下游OEM玩家+中游Tier供应商均加大对汽车智能化投入,大势所趋;智驾核心环节【软件+硬件+数据】均围绕下游OEM展开,数据催化算法提效进而驱动硬件迭代。以特斯拉为代表,应用算法向全栈端到端-世界模型持续迭代,功能落地兑现 OEM整车厂商&核心芯片硬件厂商&智驾传感器厂商&独立算法商加速布局端到端算法开发,场景驱动-数据驱动-认知驱动持续进化;智驾算法产业发展进入深水区,高投入赋能【大算力+大数据】,方能走通L3有条件自动驾驶至L4完全自动驾驶之路。 看好智驾头部车企以及智能化增量零部件:1)华为系玩家【长安汽车+赛力斯+江淮汽车】,关 注【北汽蓝谷】;2)头部新势力【小鹏汽车+理想汽车】;3)加速转型【吉利汽车+上汽集团 +长城汽车+广汽集团】;4)智能化核心增量零部件:域控制器(德赛西威+经纬恒润+华阳集团+均胜电子等)+线控底盘(伯特利+耐世特+拓普集团等)。 风险提示:智能驾驶相关技术迭代/产业政策出台低于预期;华为/小鹏等车企新车销量低于预期 目录 一、何谓“大模型”? 二、车端:大模型重塑智驾算法架构三、云端:大模型加速智驾算法迭代 四、当前产业玩家的智驾算法能力如何?五、投资建议与风险提示 一、何谓“大模型”? 数据来源:IBM官网,东吴证券研究所 6 机器学习>神经网络>深度学习≈深度神经网络。机器学习用于解决由人工基于if-else等规则开发算法而导致成本过高的问题,想要通过帮助机器“发现”它们“自己”解决问题的算法来解决;机器学习可以分为有监督学习、无监督学习和强化学习等三类。 深度学习是基于深度神经网络的,而神经网络算法是机器学习模型的一个分支,包括卷积神经网络CNN/循环神经网络RNN等等,自注意力机制(Transformer)则是基于全连接神经网络和循环神经网络的衍生。 深度学习使用多层神经网络,从原始输入中逐步提取更高层次更抽象的特征用于后续算法识别,处理大规模数据是其核心优势。当前,深度学习已经应用到包括图像识别、自然语言处理、语音识别等各领域。 图:机器学习 AI大模型是指具有超大规模参数(通常在十亿个以上)、超强计算资源的机器学习模型,其目标是通过增加模型的参数数量来提高模型的表现能力,它们能够处理海量数据,完成各种复杂任务AI大模型的原理是基于神经网络和大量数据的训练,模型通过模拟人脑的神经元结构,对输入数据进行多层抽象和处理,从而实现对复杂任务的学习和预测。AI大模型的训练主要分为:数据预处理、模型构建、横型训练、模型评估等几大步骤,如下: 图:AI算法训练 3 1 数据预处理构建神经网络前向传播 首先,需要对原始数据进行清洗、整理和标注 ,以便为模型提供合适的输入。这一阶段可能包括去除噪声、填充缺失值、归一化等操作。 接下来,根据任务需求 ,设计并搭建一个神经网络 。神经网络通常由多个层次组成,每个层次包含若干个神经元。神经元之间通过权重连接,用于表示输入数据与输出数据之间的关系。 将经过预处理的数据输入到神经网络中,按照权重计算得出各层神经元的输出。这个过程称为前向传播。 4激活函数 在神经网络的每一层之后 ,通常会使用激活函数(如 ReLU、Sigmoid或Tanh等 )对输出进行非线性变换,以 增加模型的表达能力。 损失函数5 为了衡量模型预测结果与真实目标之间的差距 ,需要定义一个损失函数 。损失函数会计算预测误差,并将其作为优化目标 6 7 。常见的损失函数有均方误差(MSE)、交叉熵损 根据损失函数,选择合适的优化算法(如梯度下降、随机梯度下降、 Adam等)来更新神经网络中的权重和偏置,以减小损失函数的值。这个过程称为反向传播。 重复执行上述步骤,直到横型在训练集上达到满意的性能。为了防止过拟合,还需要在验证集上评估模型的泛化能力。如果发现模型在验证集上的表现不佳,可以调整网络结构、超参数或训练策略等。 当模型在训练集和验证集上表现良好时,可以将数据模型进行部署和使用。 8 八个步骤 数据来源:CSDN,东吴证券研究所绘制 7 失(Cross-EntropyLoss)等。 优化算法训练与验证部署与使用 AI大模型能够处理以下几类核心问题:1)自然语言处理:以GPT-3和BERT为例,AI大模型通过学习海量的语料库和上下文,让计算机更加准确地理解和处理自然语言,如翻译、问答、分词、文本生成等领域。2)计算机视觉:以ResNet和EficientNet为例,AI大模型通过学习大量的图像数据和构建更深更复杂的神经网络,使计算机能够对图像进行更加准确的识别和分析,包括目标检测、图像分类、语义分割等领域。3)语音识别和生成。通过以上几类问题的解决,AI大模型可以进一步通过自动化和智能化的方式提高生产效率,在部分工业领域可以实现人机合作或自动化 优点 1.更准确:AI大模型有更多的参数,能够处理更复杂的信息和更深入的上下文,提高了精度和准确性。 2.更智能:AI大模型能够模拟人类的思维和学习模式,通过大量的训练数据,从而提高人工智能的智能性 3.更具通用性:AI大模型能够自适应不同的工作和环境,可以适应各种不同的自然语言、视觉和声音数据。 4.更加高效:AI大模型通过并行计算和分布式训练,大大提高了计算效率,能够在短时间内处理大量的数据。 减少人力成本。 图:AI大模型的优劣势分析 数据来源:CSDN,东吴证券研究所 8 Transformer:架构变化的核心,多模态理解的关键 Transformer是本轮大模型颠覆全行业算法架构的核心,也是多模态模型相比之前单一文本理解模型提升的关键,Transformer赋予算法更精准的特征提取能力,强化理解和识别功能,其独特的自注意力机制是灵魂,即Attentionisallyouneed。 Transformer的优势在于:1)自注意力机制赋予的长依赖语义问题(捕捉间隔较远的词之间的语义联系问题);2)支持并行计算,可极大的提升大模型数据处理效率。 图:Transformer的原理机制 自注意力机制:查询/定位,赋予权重(即注意力),多头即多个维度计算相似度特征,保证充分性。 优势:自注意力机制不同于RNN,无主次先后,可支持并行计算,同时利用位置编码和权重赋予进行定位和筛选。 数据来源:CSDN,东吴证券研究所 •inputembedding是编码器的输入, •outputembedding是解码器的输入 •PositionalEncoding代表位置编码,记住顺序 •Encoder和Decoder分别有6层(blocks),Encoder负责特征提取,Decoder则利用特征来完成识别、分类、回归等任务 •解码后输出结果 9 由理解内容至生成内容,多模态大语言模型持续进化。多模态模型是一种能够处理多种类型数据 (如文本、图像、音频和视频)的人工智能模型。这种模型的目标是通过结合不同类型的数据来提供更全面、更准确的信息。在自然语言处理(NLP)领域,多模态模型可以用于机器翻译、情感分析、文本摘要等任务。在计算机视觉领域,多模态模型可以用于图像分类、目标检测、人脸识别等任务。多模态大语言(MM-LLMs)即是将多模态模型与具备强大推理和生成能力的大语言模型结合的产物,其难点在于如何对齐本不兼容的图像/视频/文本等的编码器。 图:多模态大模型 以Transformer为基础,并行高效处理大规模参数 落地为Sora 数据来源:CSDN,东吴证券研究所10 数据来源:CSDN,东吴证券研究所 11 视觉表征主框架由CNN切换Transformer,即ViT,其多头自注意力机制赋予模型并行高效计算以及把握前后长时间依赖关系的能力,能够同时接收来自文本/图像/音频/视频的特征Token,并接入全链接层服务于下游的分类任务。ViT成功的秘诀在于大量的数据做预训练,如果没有这个过程,在开源任务上直接训练,其效果仍会逊色于具有更强归纳偏置的CNN网络。 ViT步骤分为三大步: 图形切块PatchEmbedding;位置编码PositionEmbedding; 特征提取ClassToken;注意力权重赋予Transformer Encoder; 多头输出MLPHead。 CHATGPT横空出世,持续进化引领AIGC浪潮 GPT1:用Transformer的解码器和大量的无标签样本去预训练一个语言模型,然后在子任务上提供少量的标注样本做微调,就可以很大的提高模型的性能。 GPT2:Zero-shot,在子任务上不去提供任何相关的训练样本,而是直接用足够大的预训练模 型去理解自然语言表达的要求,并基于此做预测。但GPT2性能差,有效性低。 GPT3:few-shotlearning,兼顾少样本和有效性。用有限的样本,模型可以迅速学会任务。 GPT4:GPT1~3本质