您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:算力1009大模型在自动驾驶中的落地节奏–20231012 - 发现报告
当前位置:首页/会议纪要/报告详情/

算力1009大模型在自动驾驶中的落地节奏–20231012

2023-10-12-未知机构文***
算力1009大模型在自动驾驶中的落地节奏–20231012

算力1009大模型在自动驾驶中的落地节奏 1.感知端:BEV+Transformer替代高精地图+激光雷达方案,大幅降低BOM成本 2.规控端:22年特斯拉AIDay标志着规控端基于神经网络的大模型开始应用, 3.端到端:摒弃模块化,V12不再区分感知归控决策这些模块了,直接是一个大 模型实现从视频流的输入到执行结果的输出,从输入端到输出端,,解决了之前只是局部最优的解决方案,现在可以实现全局最优。所以整个模型的架构效率都得到了大幅的提升,迭代的速度加快(相对于原来需要进行标注的预训练,现在演变为无监督训练),对于整个事物的认知和规则的认知都是模型自己去完成的。 L3(V11)、L4(V12)级别的自动驾驶,真正能够推动软件收费的商业模式落地,加强整个消费者对于自动驾驶的付费意愿。算力1009大模型在自动驾驶中的落地节奏 1.感知端:BEV+Transformer替代高精地图+激光雷达方案,大幅降低BOM成本 2.规控端:22年特斯拉AIDay标志着规控端基于神经网络的大模型开始应用, 3.端到端:摒弃模块化,V12不再区分感知归控决策这些模块了,直接是一个大 模型实现从视频流的输入到执行结果的输出,从输入端到输出端,,解决了之前只是局部最优的解决方案,现在可以实现全局最优。所以整个模型的架构效率都得到了大幅的提升,迭代的速度加快(相对于原来需要进行标注的预训练,现在演变为无监督训练),对于整个事物的认知和规则的认知都是模型自己去完成的。 L3(V11)、L4(V12)级别的自动驾驶,真正能够推动软件收费的商业模式落地,加强整个消费者对于自动驾驶的付费意愿。自动驾驶会真正成为核心卖点,对于销量会有明显的拉动的作用。所以l3l4级的自动驾驶也会成为整个车企竞争的核心的一个阶段,整个车厂都在全面的推进这块的研发投入和产业链落地。 V11每个环节具体的算法怎么实现?感知物体→预测感知物的行动轨迹→根据轨迹做决策。 1.感知环节算法实现 (1)自动驾驶的感知环节的任务 感知与交通相关的外部环境,包括检测、分类、跟踪、语义分割。 (2)感知环节的具体任务 •检测:检测物体以及物体的位置,如人、车、交通路标、交通指示牌、雪糕桶、道路的边缘操作线等。 •分类:判断物体的属性,如交通标志、红绿灯、指示牌、雪糕桶等。 •跟踪:跟踪移动物体的轨迹并进行预测,为后续的预测提供准备。 •语义分割:将目标物体的边缘分割出来,包括道路、天空、车辆等。 (3)感知环节在自动驾驶中的重要性 感知是原先自动驾驶算法中最重要的环节,是自动驾驶的核心。对于自动驾驶来说,要感知与交通相关的外部环境,以进行后续的决策和规划。3.规划和决策算法实现(1)规划和决策的逻辑 了解现状→预测人车物未来路线→规划和决策,执行控制。 (2)规划和决策的具体任务 •全局路径规划:根据起点、终点决定如何前往,是全局的规划。原来更多的是通过高精度地图告诉你怎么过去,现在是通过低精度地图以及目前实时观测到的路况去做灵活的一个决策。 •行为规划:根据感知和对车辆未来的预测,在遇到其他车辆时做出的决策,如等待对方通过、绕行、换道等。 •自身运动规划:在确定某种行为后,确定自身车辆的运动规划,如转动方向盘的角度、速度等。 (3)规划和决策对自动驾驶体验的影响 一连串规划和决策的好坏会影响整个自动驾驶的体验,一些车的规划控制做得很好,给人很流畅的感觉,而其他车辆可能处理比较生硬,体验相对较差。 BEV+Transformer在感知端的替代——原理详解 BEV+Transformer要做的事情核心就两个:1)把摄像头采集的二维信息转换成三维信息,要增加我们所说的深度信息维度;2)把全车十几个摄像头的画面的信息拼接(或者说重构)成一个BEV的视角的动态的图。 1)二维转三维通过Transformer算法实现。原理:多头注意力机制+近大远小算法估算+动态识别引入时序信息形成记忆。代替激光雷达作用。 2)BEV视角重构,把各方位摄像头采集的画面融合到一个鸟瞰图画面中,化繁乱为规整,能更明确地对环境做出判断。这里的融合主要是特征融合。(前融合是数据级融合,难度最大,数据保留度最高,但也留存了噪音数据,对算力消耗巨大;后融合是目标级融合,难度最小,每个传感器都独立判断环境类型,但很容易发生结论冲突,效果很差。特征融合是先对识别到的数据进行特征提取,再把各自特征融合成物体/环境的全貌,以及时间序列的相对位置,是最合理的方式。目标特征提取的精细度就越细,还原出来的形象就越准确)。 3)如何构建BEV视角?Transformer占用网络。把BEV视角拆分成一个个网格,把识别到的目标物的大小、相对位置填充进去占用网格,实现BEV视角局部高精度地图的构建。感知的精度越细,构建的鸟瞰图就越准确,很小的异形物也能构建出来。 综上,BEV+Transformer可以形成动态的、局部的高精度地图,代替原来的全局高精地图。后续:大模型引入规控和决策算法中,自动驾驶的老司机化 原来的规控算法基本上还是基于决策树的模型,通过打分的方式去优选结果,并使用,Transformer大模型的算法可以提升这样的一个能力。其实在规控的一个过程中,尤其是一些大型路口的规控,决策相对来说难度是比较大的,因为你没有车道线,或者操作性很模糊,路口又非常的大,这个时候其实对于算法的规控和决策的能力要求就会比较高了,需要自己生成车道线来指导自动驾驶。 从直播案例中可以发现,FSDV12已经脱离模块化和Rulebase规则设置:1.红灯时跟随旁边左转车道的车动了;2)绿灯时因为前方堵车而没有启动,证明规则是由模型自己去认知的,人类规则没有介入训练。只是不同规则的优先级有时判断有误,需要再投喂这类案例去训练。 端到端原理类似人类的条件反射。我们不是先识别它是什么东西,预计他怎么样,再计划我应该怎么做,再去执行,没有这个过程,我们是看到了直接执行。这是一个条件反射的效果,其实是跟端到端的大模型的原理更类似的。 大模型引入自动驾驶后的优势 1.低成本替代激光雷达+高精地图方案。后者以威马Robotaxi为例,虽然性能很好,已经具备L4级别能力,但单车改装成本约20万美元,即使现在成本下降也难以 规模化落地。BEV+Transformer相当于用软件代替了硬件识别能力,大幅降本促进自动驾驶普及。 2.大模型具有很强的泛化能力,针对长尾场景的解决效率大幅提升。V12能够通过以场景为单位的训练解决一类cornercase,而V11只能一个一个cornercase训练解决。效果:经过足够的学习,人类遇到的可能各种各样的场景的cos,它基本上都能解决,而且解决的会比人类的要更好。端到端的V12是自己学习和认知规则的,在泛化能力和推理能力下才会真正有机会推动l4级别的自动驾驶。 FSD的推广节奏 马斯克一直强调自动驾驶的相对安全性,而不是绝对安全。相对安全的准则就是仿生学。大模型和人脑做决策的过程其实都是黑盒,当大模型的能力基本上囊括了绝大部分人的能力,跟人类的决策边界已经基本上重叠的时候,自动驾驶能够处理的场景基本上已经覆盖绝大部分场景了,已经比较难能找到处理不了的层面。这个时其实已经可以开始逐步去做推广。 现在FSD的安全性已经是人类驾驶的两倍以上了,能力边缘接近,其实已经可以 去推广。那当自动驾驶的安全等级是人类驾驶安全等级的4~5倍的时候,这个时候就完全可以大规模推广了,已经可以大规模应用了。当自动驾驶的安全等级是高 于人类驾驶安全等级的10倍的时候就完全可以普及了。 特斯拉&国内车企算力部署 云端算力的大规模部署部署是今年才开始的,今年7月1号首个Dojo量产,到明年的一季度就要达到30~40EFLOPs的算力(10万片a100的水平),在明年的四季度达到100亿EFLOPs的算力水平,等效30万片的a100,所以真正特斯拉算力的大部分不从今年下半年才开始的,其实就是为v12准备的。 国内云端算力部署:最多是华为2EFLOPs,其次小鹏600P,理想还在建。 目前国内还在效仿模块化算法的V11版本,真正要走向端到端的v12,整个算力也要跟特斯拉一样,可能还有几十倍的提升,整个行业的门槛会大幅提升,因为光云端算力的投入就会有10倍以上的提升,更多的变成未来是强者恒强的一个格局。 当前零点几E或者2EFLOPs算力的构建,可能20~30亿人民币就够了,未来100亿plus算力的一个构建,可能至少是200~300亿人民币以上的一个构建,门槛提升了10倍以上。