DriveGPT:毫末智行DriveGPT上车在即,视觉方案重塑智驾路线。4月11日,毫末智行AI DAY发布DriveGPT“雪湖·海若”,基于BEV视觉方案重塑智驾技术路线。DriveGPT将视觉感知到的自动驾驶场景Token化,形成智驾drive language,GPT预测路况+规划路线,形成智驾颠覆性新思路。DriveGPT视觉方案直接重新配置感知硬件,毫末在BEV框架中引入车端鱼眼相机:(1)视觉标注降本:DriveGPT识别视觉画面单帧成本为人工(5元)的1/10。(2)智驾硬件降本:经DriveGPT加持,毫末鱼眼相机方案可达到 15m 范围内感知精度 30cm ,2米内精度达 10cm ,视觉传感器有望取代雷达,从而大幅降低智驾成本门槛。 SAM模型:CV领域GPT-3时刻,分割技术走向通用化。Meta于4月6日发布首个可“任意图像分割”的基础模型Segment Anything Model(SAM)和最大规模的“任意分割10亿掩码数据集Segment Anything 1-Billion mask dataset(SA-1B),将自然语言领域的prompt范式引入了计算机视觉(CV)领域,进而为CV基础模型提供更广泛的支持与深度研究。该模型实现了CV领域分割技术的通用化,对过去的两种分割方式(交互式分割和自动分割)进行概括,实现了分割技术的重大突破。借助SAM收集并构建SA-1B数据集,可以大大提高数据注释工作的速度,提升数据集质量。计算机视觉领域GPT-3时刻已至,在汽车智能化浪潮下,SAM的推出从底层技术上给出了解决方案,我们认为SAM有望促进计算机视觉的技术进步,有望加速实现智能驾驶的应用突破。 华为全新智驾方案:问界M5高阶智驾版粉墨登场,华为智驾迈向下一站。问界M5高阶智驾版将于2023年4月17日发布,对比现有车型,新车型将首发华为ADS2.0高阶辅助驾驶,重点加强了辅助驾驶功能,此外,该车型有望使用华为HarmonyOS3.0系统,智能座舱方面迎来新突破。华为ADS2.0高阶辅助驾驶方面,该方案搭载了业界首创激光融合GOD网络,障碍识别更精准,即便是在复杂的交通场景也能安全畅行,同时对高速体验进行了优化,优化后平均人工接管里程从100km提升到200km,上下匝道、通道避障等都能轻松应对,此外ADS2.0搭载的NCA智驾领航可覆盖城区90%场景,在智能泊车性能和场景方面有了进一步提升。HarmonyOS3.0系统方面,此次升级带来包括超级桌面、PC双屏协同、智慧寻车等新功能,持续进化的HarmonyOS车机操作系统,不仅带来语音视觉等系统能力升级,未来还将带来多屏多用户,独立多音区的领先体验。 投资建议:建议关注人工智能视觉相关标的:(1)车载摄像头镜头与模组:舜宇光学、联创电子、宇瞳光学;(2)车载显示:光峰科技;(3)汽车CIS:韦尔股份、思特威、格科微、晶方科技;(4)视频处理SOC:富瀚微、北京君正;(5)车载高速连接器:电连技术;(6)高清视频桥接/SerDes芯片:龙迅股份、裕太微;(7)激光雷达:长光华芯、永新光学、炬光科技。 风险提示:下游需求不及预期、行业竞争加剧、技术路线变更风险。 1.DriveGPT:毫末智行DriveGPT上车在即,视觉方案重塑智驾路线 4月11日,毫末智行AI DAY发布DriveGPT“雪湖·海若”,GPT+自动驾驶赋能自动驾驶视觉路线,或重新配置自动驾驶硬件。 用语言描述与想象自动驾驶,DriveGPT打开智驾方案新思路。ChatGPT的原理类似词语接龙,其生成自然语言的逻辑可以描述为“鉴于到目前为止的文本,基于对接龙词语的概率的判断,下一个词应该是什么”。DriveGPT创造性地将视觉感知到的自动驾驶场景Token化,形成属于自动驾驶的“Drive Language”,从而运用GPT算法,将自动驾驶决策进行预测与推演。 图1:ChatGPT的原理类似词语接龙 图2:DriveGPT的“DriveLanguage” DriveGPT赋能自动驾驶纯视觉方案,大幅降低视觉场景识别成本。DriveGPT的“DriveLanguage”基于的是视觉数据,使用BEV(Bird's Eye View,鸟瞰视图)视场框架进行自动驾驶计算。由于相机感知使用BEV方案的视角全面、辨识度高等诸多益处,偏爱视觉方案的Tesla也在自动驾驶算法中使用了BEV方案。 纯视觉方案训练需要对视频画面进行大量标注,目前自动驾驶的视觉路线驾驶场景识别单帧图片场景识别需要约5元,DriveGPT加持下,场景识别的价格将下降到单帧图片0.5元,仅相当于行业的1/10。毫末智行即将向行业开放图像帧及4D Clips自场景识别服务,这将大幅降低自动驾驶视觉信号的使用成本。 图3:特斯拉的BEV视觉示意图 图4:DriveGPT场景识别成本大幅降低 DriveGPT视觉方案重新配置自动驾驶硬件,自动驾驶有望降本下沉。毫末将鱼眼相机引入视觉BEV的感知框架当中,在泊车场景可做到在15米范围内达测量精度 30cm ,2米内精度高于 10cm 。毫末智行不依赖激光雷达,就能将收集的回传视频转化为可用于BEV模型训练的带3D标注的真值数据,并且重建误差小于 10cm 。目前激光雷达的价格仍然高居不下,相比之下摄像头价格更为低廉,低端价位车型受制于硬件成本往往无法搭载需要使用激光雷达的高级别自动驾驶功能,纯视觉方案的实现将有望使自动驾驶下沉至中低价位车型。 图5:特斯拉Model3 ADAS传感器主要为摄像头 图6:毫末智行MANA(雪湖)感知能力vs激光雷达 底层大算力支持+多伙伴生态共建,即将上车魏牌新摩卡。DriveGPT背后离不开算力支持,毫末与火山引擎已共建智算中心MANA OASIS(雪湖·绿洲),其算力高达67亿亿次/秒,存储带宽2T/秒,通信带宽达到800G/秒。目前毫末智行DriveGPT已正式对外开放,开启对北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等首批限量客户的开放。毫末智行DriveGPT即将首发落地新摩卡DHT-PHEV,后续将上车魏牌蓝山,同时DriveGPT也会逐步应用到城市NOH、捷途推荐、智能陪练以及脱困等场景中。 图7:毫末智行Drive GPT的算力支持MANA OASIS 图8:毫末智行DriveGPT合作伙伴 2.SAM模型:CV领域GPT-3时刻,分割技术走向通用化 计算机视觉助力自动驾驶应用落地。计算机视觉(CV)是为助力计算机使用复杂算法来理解数字图像和视频并提取有用信息的研究领域,包括对卷积神经网络(CNN)进行特定训练,以便利用图像和视频进行数据分割、分类和检测。在自动驾驶领域,自动驾驶车辆可以完全由计算机视觉解决方案接管,或者其操作可以得到显著增强。目前已有的常用应用包括汽车中的早期警报系统。 表1:卷积神经网络(CNN)能够针对多种应用场合执行分割、分类和检测 图9:计算机视觉包括对卷积神经网络进行特定训练 图10:使用卷积神经网络计算机视觉分析图像 分割是计算机视觉的核心任务,SAM模型实现分割技术走向通用化。分割是为帮助计算机识别哪些图像像素属于同一个对象,用于从分析科学图像到编辑照片等。以往为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,需要大量经过详细注释过的域内数据,种种因素限制了图像分割的进一步发展。SAM(Segment Anything Model)是一种通用的分割模型,它已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成掩码,甚至包括它在训练期间没有遇到的物体和图像类型。SAM的通用性可以涵盖广泛的用例,并且可以在新图像“领域”即开即用,无需额外的训练(这种能力通常被称为零样本迁移)。 图11:SAM模型官方功能示例 图12:SAM模型官方功能示例 SAM能够泛化到新任务和新领域,实现CV分割领域的首创性突破。过去要解决分割问题有两类方法:(1)交互式分割:允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法;(2)自动分割:允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练。这两种方法都没有提供通用的、全自动的分割方法。SAM是这两类方法的概括。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务。 图14:SAM模型可以通过鼠标点击选中目标,实现图像分割 图13:Meta AI官网demo原图(示例) 借助SAM收集并构建SA-1B数据集,大大提升速度和准确度。SAM可以用来收集数据,标注者使用SAM交互地注释图像,新注释的数据又反过来更新SAM模型。使用该方法,交互式地注释一个掩码只需大约14秒;与之前的大规模分割数据收集工作相比,借助于SAM模型收集数据能够快6.5倍,比之前最大的数据注释工作快2倍。最终的数据集超过11亿个分割掩码,在大约1100万张经过许可和隐私保护图像上收集而来。由此构建的SA-1B数据集,其掩码比任何现有的分割数据集多400倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美。 图15:SAM与之前的大规模分割数据收集工作相比速度大 图16:SA-1B的掩码比任何现有的分割数据集多400倍 通用性打开广泛的应用空间,SAM有望拓展至AR/VR等诸多新兴领域。Meta预计,与专门为一组固定任务训练的系统相比,基于prompt工程等技术的可组合系统设计将支持更广泛的应用。SAM可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件。比如SAM可以通过AR眼镜识别日常物品,为用户提供提示。 图17:SAM应用于农业场景 图18:SAM应用于生物学研究场景 计算机视觉领域GPT-3时刻已至,智能驾驶未来可期。SAM模型对于计算机视觉应用已实现重大技术突破,英伟达人工智能科学家Jim Fan表示Meta此项研究是计算机视觉领域的GPT-3时刻之一。在汽车智能化浪潮下,SAM的推出从底层技术上给出了解决方案,我们认为SAM有望促进计算机视觉的技术进步,有望加速实现智能驾驶的应用突破。 3.华为全新智驾方案:问界M5高阶智驾版粉墨登场,华为智驾迈向下一站 AIOT问界M5系列华为高阶智能驾驶版将于2023年4月17日正式发布。 对比现有车型,新车型将首发华为ADS 2.0高阶辅助驾驶,重点加强了辅助驾驶功能,配备一颗位于车顶凸出的激光雷达,同时还增加了一颗后视镜雷达和全视角ADAS摄像头,计算单元也将更换为华为自研的MDC。此外,该车型有望使用华为HarmonyOS 3.0系统,升级了超级桌面、PC协同、智慧寻车、小艺提醒、小艺免唤醒以及HUD高度自适应调节等功能,在用户交互、智慧互联、情景智能和安全隐私等方面进行了功能焕新升级。在性能方面,问界M5高阶智驾版车型搭载了华为DriveONE电驱平台,采用了全铝合金底盘配合前双叉臂、后多连杆独立悬架,以及华为自研的DATS动态自适应扭矩系统,能实现4秒级的零百公里加速性能。 图19:问界M5智驾版申报图 华为ADS 2.0高阶辅助驾驶:让人驾更安全,让智驾更轻松。华为ADS 2.0于2023年4月16日正式发布,将首发于问界M5智驾版,并已适配阿维塔11全系列以及极狐阿尔法S全新Hi版等车型。华为高阶智能驾驶系统ADS 2.0主要升级了四大亮点:1)安全领先一代:业界首创激光融合GOD网络,传统的白名单障碍物需要训练才能识别,而GOD网络通过激光雷达、毫米波雷达、摄像头等多传感融合的感知,异形障碍物也能识别,提升驾驶安全;2)高速体验优化:高速NCA覆盖259个城市,总里程30万公里,华为ADS 2.0使车辆在高速上面对