您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开源证券]:中小盘策略专题:Sora和世界模型殊途同归,自动驾驶行业有望加速 - 发现报告
当前位置:首页/宏观策略/报告详情/

中小盘策略专题:Sora和世界模型殊途同归,自动驾驶行业有望加速

2024-05-20任浪、赵旭杨开源证券y***
中小盘策略专题:Sora和世界模型殊途同归,自动驾驶行业有望加速

Sora横空出世,践行规模法则叠加强大工程化能力构筑精品 2024年初,Sora横空出世,凭借惊艳的视频生成效果和分钟级的时长引领市场。 Sora生成长达60秒的视频,并且可以通过自然语言、视频、图片作为提示词实现视频生成,相比此前的其他文生视频工具性能优势显著。此外Sora生成的视频还呈现出时间一致性、空间一致性和因果一致性,被OpenAI称为世界模拟器。 Sora在数据、算法、算力上均大胆创新,数据方面,采用了特殊的视频编码模式将视频模块化和压缩,构建适用于视频生成模型的时空模块,通过原本具备的大语言模型能力构建高质量的视频文本数据集合文本生成提示词等。算法层面,引入DiT算法增强可扩展性,同时加入某些自回归任务加强模型的帧间信息处理能力。最后OpenAI的强大算力也是Sora诞生的必要因素。 世界模型——自动驾驶的下一站 世界模型是预测未来的梦境,将全面赋能自动驾驶。世界模型即通过对世界基础运行规律的理解来实现对未来的预测。在自动驾驶领域,预测未来可以被用于:生成逼真、稀缺的驾驶场景助力模型的训练以及仿真验证,同时模型也可以直接生成驾驶策略指导自动驾驶运行。而在端到端算法时代,产业对合成数据、闭环验证的需求进一步增强,世界模型的重要性凸显。目前在自动驾驶领域,特斯拉开发了WorldModel、Wayve开发了GAIA-1、英伟达亦推出自身的基础模型,诸多玩家推出相应产品来实现驾驶场景的视频生成等任务。而在学术界,多种世界模型亦层出不穷,以DriveDreamer为例,模型不仅可以实现驾驶场景的生成,更能生成驾驶场景下所应该实现的驾驶行为,为世界模型应用打开想象空间。 世界模型、视频生成殊途同归,自动驾驶有望迎加速 面向相似的目标,采用相近的方法,多种任务殊途同归,自动驾驶未来已来。 视频生成领域,Sora、Runway等均表达了希望进军世界模型的想法,而“预测未来”对自动驾驶乃至具身智能都存在不可替代的意义,长时间、稳定的对未来的场景进行预测是诸多行业面临的难点。而在算法架构方面,我们看到视频生成和自动驾驶的世界模型均有诸多相似之处,均将复杂外部世界获取的数据进行编码和压缩、抽象成为低维度的向量,并采用Transformer或者其他模型在时空维度学习这些知识进而实现预测,再通过不同类型的解码器将之前生成的潜在空间的向量解码成为我们所需要的信息形式,如视频、点云、甚至执行器的控制信息等。而我们也看到在Sora的启发下,OpenSora、Vidu等视频生成工具迭出,效果不俗。大模型开发和自动驾驶汇集AI领域诸多优秀人才和资源,相似的开发方向有望让产业互相借鉴,加速产业发展,推动自动驾驶加速实现。 推荐及受益标的:推荐标的:长安汽车、比亚迪、长城汽车、德赛西威、经纬恒润-W、均胜电子、华阳集团、美格智能、华测导航。受益标的:小鹏汽车-W、理想汽车-W、蔚来-SW、中科创达等。 风险提示:技术进步不及预期、市场需求不及预期、重大事故致行业受挫等。 1、Sora横空出世,世界模拟器惊艳世人 AI生成视频从2023年以来呈现快速增长态势,但模型性能一度遇到瓶颈。根据A16Z的统计,AI视频生成模型在2023年四季度呈现井喷式增长。然而在如火如荼的模型发布热潮中,模型本身的进步却难言迅速,大多视频生成模型都遇到了类似的瓶颈:实现较好控制性难度高——即如何让模型精准按照语言的描述控制视频中发生的场景。实现时间一致性难度大——如何让角色、对象和背景在帧之间保持一致,而不会变成其他的东西或者扭曲不易实现,这也直接决定模型生成视频的时长。因此我们通常看到的生成式视频,通常会快速切换画面,并且内容天马行空,这正是为了规避模型弊端采取的举措。 图1:AI视频生成模型加速发展2023年四季度迎井喷 1.1、Sora横空出世,引燃市场热情 Sora凭借惊艳的视频生成效果和分钟级的时长引领市场。前述视频生成模型所遇到的问题在Sora诞生后出现根本改变。2023年2月16日凌晨,OpenAI发布了文生视频大模型Sora,能够根据用户提供的文本描述生成长达60秒的视频,同时视频精准反应提示词内容,复杂且逼真,效果惊艳,引燃市场热情。 图2:Sora生成东京街头女士,场景复杂 图3:特写镜头细节饱满效果逼真 1.1.1、功能强大,可完成多种视频图片生成任务 Sora功能强大,可实现多种视频和图像生成任务。(1)Sora可通过提示词生成视频并灵活改变视频持续时间、分辨率和宽高比,即可以为各类不同的设备生成内容相同或相似的视频;(2)通过图片提示生成视频,如基于DALL·E2和E3生成的静态图片生成具有动态效果的视频。(3)通过视频提示生成视频,如将不同开头的视频最终生成相同的结局,或者生成无限循环的视频,以及对视频进行编辑,改变其中的某些元素和环境,同时也可以将不同的视频进行拼接。(4)通过提示词生成高分辨率的精美图片。 图4:Sora功能强大,可按需完成各类视频生成任务 1.1.2、性能优异,对比其他产品形成显著优势 对比其他的视频生成工具,Sora的性能优异呈现出碾压式的优势:(1)视频时长:可生成时长长达1分钟的视频,并且品质优异,内容稳定;(2)场景复杂内容逼真:Sora可生成包含多个角色、特定运动类型以及主题精确背景细节复杂的场景,视频效果逼真。(3)语言理解能力优异:Sora能够深入理解提示词并且精准、忠实的表达。(4)灵活度高:Sora可随意生成不同时长、长宽比、分辨率的视频。 表1:Sora的性能显著优于其他竞品 以最热门的Pika和RunwayML以及StableVideo和Sora做比较,可发现相同的提示词下,Sora生成的视频不仅时长远超其他,效果也优于同时期其他产品。 图5:Sora的视频生成时长远超其他竞品 图6:Sora的视频生成效果优于Runway和Pika 1.1.3、起于视频生成,迈向世界模拟器 Sora在进行视频生成任务时,生成的视频一定程度上能够遵循现实世界的物理规律,这使得其模拟现实世界中的人物、动物、环境等,拥有了更广阔的想象空间。 (1)空间一致性:Sora能够生成带有动态摄像头的运动视频,随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。(2)时间一致性:在Sora生成的长视频中,元素之间通常能够保持较好的时空一致性,如即使动物被遮挡,或离开画面,在后续的视频中仍然能被较好的呈现。(3)因果一致性:Sora生成的视频可呈现一定的因果关系。比如画家可在画布上留下笔触,人吃汉堡也能在汉堡上留下痕迹。Sora还能够模拟人工过程,如视频游戏,可用基本策略控制《我的世界》,无需特殊的微调,在Sora中提示“我的世界”即可实现。 图7:Sora生成的视频在动态变化的过程中,视频元素的3D形状和位置保持一致 Sora也呈现出一定的局限性,对物理规律的遵循没有那么严格。在某些场景下无法准确还原物理交互过程,如无法完美的模拟水杯打碎液体飞溅的场景,有些视频中物体会凭空起飞等,表明Sora仍然具有较大的提升空间。 图8:Sora仍有瑕疵,呈现打碎被子液体飞溅的场景模拟并不准确 1.2、Diffusion构成Sora基座,不断进步羽翼渐丰 1.2.1、扩散模型逐渐成为AI视觉生成的主流方案 生成式模型在人工智能领域由来已久,近年随着大模型的兴起,生成式模型逐步占到了舞台中央。生成式模型类型丰富,常见的有生成对抗网络(GAN,Generative Adversarial Networks)、变分自编码器(VAE,Variational Autoencoders)、扩散模型(Diffusion)、Transformer等。早年,GAN和VAE模型占据生成式模型市场的主流,GAN的生成效果尚可但收敛难训练困难,而VAE虽然易于训练,但生成效果一般,常常出现样本失真等问题,并不具备大规模使用的基础。Diffusion生成效果优异样本多样性好,相对更容易收敛,逐步引发市场关注,当然方案本身也存在样本生成速度慢、对算力消耗大等问题,近年亦涌现出基于掩码的自回归视频生成算法,总体而言,在生成式模型领域,算法不断演进,性能亦不断提升。 图9:生成式模型主要有GAN、VAE、Diffusion等 图10:三大生成式模型性能各有优劣 Diffusion模型历经发展逐步确立地位。扩散模型最初在2015年被提出,2020年伯克利大学发布DDPM的论文,标志着架构上扩散模型逐步迈向成熟,其后不断有新的机构将扩散模型不断完善,OpenAI也加入行列之中,发表了“Improved Diffusion”、“Classifier Guidance”、“Classifier Free Guidance”等模型,2021年OpenAI发表文章《Diffusion models beat GAN on image Synthesis》表明扩散模型的性能已经超越其他模型方案。2022年DALLE-2横空出世,通过利用扩散模型和海量数据,该模型呈现出前所未有的理解和创造能力,将扩散模型彻底引入公众视野。此后不到一个月时间谷歌发布文生图模型Imagen、Stability AI公司发布Stable Diffusion的基石模型Laion-5B、系列的基于扩散模型的生成式模型不断出现,持续掀起市场热潮,扩散模型逐步衍生出潜在扩散模型(LDM)、Diffusion Transformer等架构,后期包括Sora等文生视频的模型以及部分文生3D的模型均以扩散模型作为基础,确立了Diffusion模型在视觉生成领域的地位。 图11:Diffusion模型近年逐步成为生成式模型的主流方案之一,架构上也不断演进性能持续提升 图12:DALLE2采用Diffusion模型构建 图13:GAN(左)生成的图片效果不及Diffusion(中) 1.2.2、扩散模型依靠噪声的添加和祛除实现图像生成 “加噪声”,“祛噪声”形成扩散模型基本原理。扩散模型最初受到了热力学扩散定理模型的启发,像墨水滴入清水中一样,通过前向加噪声训练,反向去噪声推理,经过多个步骤渐进式实现视觉内容的生成。具体而言,为了让扩散过程可以逆转,会训练一个神经网络称为噪声预测器(Noise Predictor)。在训练过程中,建立一个噪声预测器神经网络,选择一张照片,加入文字条件,并逐步骤加入噪声使图像变得嘈杂,最终生成纯噪声图片。这一过程中噪声预测器将学习到中间加入了多少次噪声以及每次加入的是何种噪声。在推理过程中,将训练步骤反向操作,让噪声预测器预测并生成当前步骤下图片中的噪声,从前一步噪声图片中减去该步骤下噪声预测器预测的噪声,图像即变得更加清晰,经过多次迭代即可还原出对应的图片。 图14:“加噪声、“祛噪声”构成Diffusion模型的基本原理 图15:Diffusion模型的核心在于“噪声预测器” 1.2.3、StableDiffusion推动模型迈向更广泛受众 潜在扩散模型提升计算效率,增强算法能力,助力扩散模型更广泛推开。前述提到的扩散模型,是在像素空间运行,模型对于算力的消耗巨大,为了解决这一问题,诞生了潜在扩散模型(LDM、稳定扩散模型,Stable Diffusion)。其先通过编码器将图像压缩到一个称作潜在空间的区域中,这时扩散模型将面向潜在空间中的张量来进行添加噪声和祛除噪声的过程,进而大幅减少计算量,之后再将生成的张量通过解码器还原成为图像即可。这样的算法帮助Stable Diffusion能够在个人电脑上运行,同时这样的方式也被诸多后续的文生图乃至文生视频的算法所采用包括OpenAI的DALLE-3、甚至Sora等。潜在空间(Latent Space)即为抽象的多维空间,能够展示出数据在抽象层面的一些有意义特征和共性,模型通过这些共性的特征可以实现对数据的识别、归类、处理等任务。以人感知世界为例,识别“椅子”时通常会观察其是否包含四只腿和靠背,而颜色、材质则会被忽略,近似的