您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国投证券]:汽车零部件Ⅱ:Sora的诞生对智能驾驶行业的影响 - 发现报告
当前位置:首页/行业研究/报告详情/

汽车零部件Ⅱ:Sora的诞生对智能驾驶行业的影响

交运设备2024-02-26徐慧雄、李泽国投证券
AI智能总结
查看更多
汽车零部件Ⅱ:Sora的诞生对智能驾驶行业的影响

2024年02月26日 汽车零部件Ⅱ Sora的诞生对智能驾驶行业的影响 999563315 行业专题 证券研究报告投资评级领先大市-A维持评级 Sora是文生视频的集大成者,核心创新点在于时空编码和DiT模型。Sora是OpenAI推出的首个文本生视频模型,视频生成长度、逼真度等均远超现有竞品。从技术上看,Sora的核心创新点在于时空编码和DiffusionTransformer模型的应用。1)Spacetimepatches时空编码将一个完整视频切分成带有时间维度的一系列Tokens输入Transformer模型,时空编码的引入是Sora能够进行大规模视频数据训练的关键,同时为Sora的生成结果具备三维一致性奠定了基础。2)DiT模型结合了Diffusion扩散模型和Transformer模型的优点,将传统扩散模型中采用的U-Net网络结构替换成Transformer,使得模型更擅长捕捉长距离的相关关系。 Sora验证了Diffusion+Transformer的技术路线或是通往世界模型的有效技术路径。神经网络模型的预测结果是概率输出,目前尚不具备因果关系的推断能力,因此推理结果可能会出现常识错误或者违背现实物理规律。而学界提出的世界模型概念旨在希望神经网络模型可以像人类一样理解世界,具体可概括为具备以下三个特点:1)理解物理世界运行规律,像人一样具备常识。2)具备泛化到训练样本以外的能力。3)可以基于记忆进行自我演进。目前关于世界模型的技术路径尚有争议,但从OpenAI的官方展示视频来看,Sora已经具备了世界模型的雏形,对于真实物理世界有一定的模拟能力。因此我们认为Sora采用的Diffusion+Transformer的技术路线或许是通往世界模型的有效技术路径。 特斯拉同样基于与Sora相似的技术路径已开始对世界模型进行探索。早在2023年6月召开的CVPR会议上,特斯拉已经分享了对于世界模型的探索,Demo展示效果惊艳:1)可以同时对车身周围八个摄像头周围未来情况进行预测;2)可以精准的模拟过去难以描述的场景(如烟尘);3)可以根据动作指令调节;4)可以用来做分割任务。根据特斯拉CVPR上的演讲及马斯克推特的公开回复,可以推断特斯拉大概率和OpenAI一样采用的是Diffusion+Transformer生成式AI的技术路线。而Sora的成功已经率先在AGI领域验证了这条技术路线的可行性,由此我们认为WorldModel应用于智能驾驶的时代亦将加速到来。 世界模型中短期内应用于仿真环节,长期作为智驾基座大模型,引领行业迈向L5时代。世界模型在智能驾驶中的应用有望最先在仿真环节落地,推动仿真场景泛化能力提升。当前智能驾驶仿真采用NeRF+素材库排列组合+游戏引擎的技术路线,虽然保证了场景的真实性但泛化性不足。世界模型能够理解物理世界运行规律、同时具备泛化到训练样本以外的能力,因此世界模型能够迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。长期来看世界大模型有望成为智驾的基座大模型,所有的智能驾驶下游任务都可以通过简单的插入任务头来实现。届时,智能驾驶将不再存在cornercase,智能驾驶的驾驶安全性、驾驶效率都将占优于人类驾驶员。 风险提示:技术进步不及预期、市场竞争加剧。 首选股票目标价(元)评级 汽车零部件Ⅱ 沪深300 31% 21% 11% 1% -9% -19% -29% 2023-022023-062023-102024-02 行业表现 资料来源:Wind资讯 升幅%1M 相对收益-7.6 绝对收益0.4 3M12M -18.3-2.6 -20.3-17.6 徐慧雄分析师 SAC执业证书编号:S1450520040002 xuhx@essence.com.cn 李泽分析师 SAC执业证书编号:S1450523040001 相关报告2024年智能驾驶年度策略:2023-12-28自动驾驶开始由创造型行业转向工程型行业从特斯拉迭代历程看智能驾 2023-08-06 驶算法升级趋势AI大模型在自动驾驶中的 2023-05-04 应用汽车轮胎行业系列报告之 2023-04-21 一:量价齐升叠加成本下降周期,看好中国胎企份额持续向上智能网联汽车建设正加速,2023-03-15特定场景商业模式已完成闭环 lize@essence.com.cn 内容目录 1.Sora验证了DiT模型的有效性,具备世界模型的雏形3 1.1.Sora是文生视频技术的集大成者,核心创新点在于时空编码及DiT模型3 1.2.Sora已初具世界模型雏形5 2.世界模型或将成为自动驾驶的最终解,引领行业迈向L5时代7 2.1.特斯拉已开始对于世界模型的探索,将成为智驾模型的下阶段迭代方向7 2.2.世界模型中短期内应用于仿真环节,长期作为基座大模型8 2.2.1.世界模型有望大幅提升仿真的泛化能力,提升数据闭环效率8 2.2.2.长期看世界大模型有望成为基座大模型,带领智驾进入L5时代9 3.风险提示11 图表目录 图1.Sora由Transformer三大组件构成3 图1.ViT模型将图片切成多个Patches4 图2.Spacetimepatches增加了时间维度4 图3.Diffusion模型分为加噪和去噪两步4 图4.DiT模型架构5 图5.神经网络模型通过反向传播和参数更新进行训练,输出的结果是一个概率值5 图6.世界模型与当前神经网络模型对比6 图7.Sora对真实物理世界具备一定的模拟能力6 图8.特斯拉WorldModel同时生成多视角预测情况7 图9.特斯拉WorldModel可用来做分割任务7 图10.特斯拉WorldModel根据动作指令调节7 图11.特斯拉WorldModel根据动作指令调节8 图12.仿真场景中对同一路口生成不同街景进行场景泛化8 图13.对同一路口生成不同车道关系进行场景泛化8 图14.世界模型可以泛化出真实、多样化的驾驶场景用户智驾仿真9 图15.Occupancy模型中很大一部分用于构建向量空间特征10 图16.WorldModel世界大模型作为下游所有任务的基座模型10 1.Sora验证了DiT模型的有效性,具备世界模型的雏形 1.1.Sora是文生视频技术的集大成者,核心创新点在于时空编码及DiT模型Sora是OpenAI推出的首个文生视频模型,效果远超现有竞品。一方面Sora大幅提升了行业视频生成长度,Sora可一次性生成60s高质量视频,远超此前Pika的3秒、RunawayGen2的16秒。并且Sora可在单个视频中进行多镜头切换,并保证了场景、物体在3D空间内的一致性。从技术原理上看,Sora本质上依然是基于Transformer模型,由Transformer三大 组件构成。包括:1)VisualEncoder模块:根本目的是将一个视频通过一系列操作进行Token化(即时空编码Spacetimepatches);2)DiffusionTransformer模块:用于视频的生成;3)TransformerDecoder:将生成的潜在表示映射回像素空间。其中Sora的核心创新点在于时空编码和DiffusionTransformer模型的应用。(关于Transformer模型的分析解读可参考我们此前的报告《AI大模型在自动驾驶中的应用》) 图1.Sora由Transformer三大组件构成 资料来源:CSDN,国投证券研究中心 Spacetimepatches(时空编码)的引入是Sora能够进行大规模视频数据训练的关键,同时为Sora的生成结果具备三维一致性奠定了基础。OpenAI认为LLM范式的成功部分得益于对Tokens的使用,这些Token统一了代码、数学和各种自然语言等不同模态的文本,语言模型中的Token代表文本的最小单位,可以是单词、词组或者是标点符号等。将这个概念应用到视频领域,Sora引入了Spacetimepatches(时空编码)作为视频的最小单位。SpacetimePatches技术建立在ViT(VisionTransformer)的研究基础之上。ViT模型的思路是将图片切成了多个Patches(小块,类似于九宫格),再拉平成一系列Tokens输入Transformer模型(目前自动驾驶行业中主流应用的“BEV+Transformer”也是以ViT为基础)。而SpacetimePatches在此基础上增加了时间维度,可以理解为Sora模型的一个Patch是一个小立方体。Spacetimepatches的引入使得Sora高效地训练大体量的视频数据(包括各种时长、分辨率、长宽比的视频数据)。并且Spacetimepatches保证了前后帧之间的强相关关系,为Sora的生成结果具备三维一致性奠定了基础。 图1.ViT模型将图片切成多个Patches图2.Spacetimepatches增加了时间维度 资料来源:AnImageisWorth16x16Words:TransformersforImageRecognitionatScale,国投证券研究中心 资料来源:CSDN,国投证券研究中心 DiT模型结合了Diffusion扩散模型和Transformer模型的优点。Diffusion扩散模型本质作用,就是学习训练数据的分布,产出尽可能符合训练数据分布的真实图片。可以理解为根据文本指令或者有噪音的图片模型“脑补”出完整图片/视频。“脑补”过程的思路是,从清晰没有噪声的图像开始,每一步(timestep)都往上加一点噪声,得到噪声越来越大、越来越模糊的图像;同时在每一步里,都让模型根据当前步加噪后的图像去恢复出加噪前的图像,也就是让模型学会去噪(加噪后的图像作为输入,加噪前的图像作为监督的正确答案,模型本质上是根据加噪前后的图像来学习拟合所添加的噪声)。这样训练完毕后,模型就可以从一张纯噪声图像一步步还原出原始图片。在上述步骤里,一步步加噪的过程,就被称为DiffusionProcess;一步步去噪的过程,就被称为DenoiseProcess。传统的Diffusion模型采用U-Net网络架构,本质上是卷积神经网络。Sora的创新之处在于用Transformer模型架构作为主干网络,通过Transformer来估测每一步加的噪音。这样做的好处在于将视频数据转换成Token之后,Transformer更擅长捕捉长距离的相关关系。 图3.Diffusion模型分为加噪和去噪两步 资料来源:知乎《十分钟读懂Diffusion:图解Diffusion扩散模型》,国投证券研究中心 图4.DiT模型架构 资料来源:ScalableDiffusionModelswithTransformers,国投证券研究中心 1.2.Sora已初具世界模型雏形 神经网络模型预测结果是概率输出,现阶段尚不具备因果关系的推断能力,因此推理结果可能会出现常识错误或违背现实物理规律。神经网络模型通过反向传播和参数更新进行训练,输出的结果是一个概率值:比如提供一张猫的图片给一个被训练用于识别猫的神经网络模型,它的输出可能是“有85%的概率是一只猫,有10%的概率是一只狗,有5%的概率是一只老虎”,随着不断的数据训练,模型输出猫的概率值会提升,但神经网络不真正“知道”什么是猫,不理解抽象的概念。再比如神经网络能够预测一个物体未来几帧中可能的轨迹,但它并不能理解这背后的物理规律(如重力、动力学等)。因为神经网络尚不理解底层事实,因此神经网络的推理结果可能会出现常识错误或者违背现实物理规律。 图5.神经网络模型通过反向传播和参数更新进行训练,输出的结果是一个概率值 资料来源:国投证券研究中心绘制 WorldModel世界模型的概念涵义来源于人类对世界体验和认知。人类可以通过观察、以及通过无监督的方式进行交互来学习积累大量关于物理世界如何运行的常识,这些常识告诉人类什么是合理的、什么是不可能的,因此人类可以通过很少的