您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [西南证券]:OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升 - 发现报告

OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升

2024-02-28 王湘杰 西南证券 张东旭
报告封面

OpenAISora专题 Transformer扩展优势凸显,视频理解与生成能力提升 西南证券研究发展中心海外研究团队王湘杰2024年2月 核心观点 事件:2024年2月16日,OpenAI发布文生视频模型——Sora及其技术报告《Videogenerationmodelsasworldsimulators》。 从Sora模型看文生视频的技术路径:技术路径尚未收敛,Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径,但没有重视Transformer架构scaleup的能力。OpenAI技术报告指出,Sora是基于扩散模型,但更强调,Sora是一个基于Transformer架构的扩散模型,其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前,为构建性能更优、效率更高的视频生成模型,已出现多种结合DiffusionModel和Transformer架构的构建方式。 从Sora模型看文生视频的最新能力(假设展示视频可以代表Sora的一般性表现):1)强大的理解能力:Sora模型不仅可以理解Prompt的内容,还能理解事物在物理世界中的存在方式,突出的语言理解能力是其能够准确生成视频的前提。2)优秀的生成能力:①长度:可生成60s视频;②复杂度 :能够生成包含多个角色、多种主题、多类运动形态的复杂场景;③逼真度:能够呈现更多的视觉细节,具备更高清的画质,为用户提供逼真的视觉体验;④连贯性&一致性:可以生成同一角色的多个镜头,保持其在整个视频中的外观,在角度移动和切换情况下,人物和场景元素在三维空间中的位置关系能够保持一致的运动;⑤可控性:在某一Prompt基础上只改动一个关键词仍能生成优质的视频,具备较好的可控性。3)其他能力:图生视频,视频扩展/编辑/拼接/模拟等。 从Sora模型看文生视频的行业影响:目前OpenAI已向部分视觉艺术家、设计师和电影制作人提供访问权限,以获取专业的反馈。我们认为,以Sora为代表的视频生成模型有望给广告/设计/短视频/游戏等行业带来变化。从中短期来看,视频生成模型将更多的作为创作工具对相关行业进行赋能。 投资建议:随着文生视频模型的迭代升级和未来的大规模应用,算力需求有望增长,云服务有望成为算力的重要补充,视频传输也将带动高带宽、高性能的光通信需求,建议关注算力、云服务和光通信领域投资机会。相关标的:英伟达(NVDA.O)、超威半导体(AMD.O)、微软(MSFT.O)等。 风险提示:技术进展不及预期风险;行业竞争加剧风险;应用开发不及预期风险。 1 目录 1从Sora看文生视频模型的技术路径 1.1发展现状:视觉生成热潮兴起,路径探索仍在继续 1.2路径对比:扩散模型占据主流,自回归模型潜力可期 1.3未来趋势:transformer优势凸显,多种模型构建方式有望呈现 2从Sora看文生视频模型的最新能力 2.1模型背景:团队成员年轻有为,相关技术积累深厚 2.2理解能力:领会并细化提示词,学习及模拟物理世界 2.3生成能力:视频长度优势明显,连贯性及可控性提升 2.4其他能力:图生视频,视频扩展/编辑/拼接/模拟等 3从Sora看文生视频模型的影响 3.1算力端:参数扩展提升训练算力消耗,应用落地拉动推理算力增长 3.2应用端:文生视频模型拓宽应用广度,前期有望以助手角色落地 3.3其他:云服务将成算力重要补充,多媒体传输带动光通信需求 2 1.1.1发展现状:多模态发展已成共识,视觉生成热潮逐步兴起 从模态发展情况来看:AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前,大语言模型在文本端的应用趋于成熟,图像和视频生成技术快速发展,AI视觉浪潮正加速到来。 从市场催化节奏来看:受文本端杀手级应用ChatGPT(于22年11月推出)和图像生成代表应用MidjourneyV5(于23年3月推出)的影响,文本端和图像生成应用已于2023年迎来市场催化。2024年2月16日,OpenAI发布Sora文生视频,引发市场对视频生成领域的高度关注。未来,随着模型的持续迭代和相关应用的涌现,视频生成领域有望在24年迎来热潮。 趋势 文本端 文生图像 大模型多模态发展情况 文生3D 22年底~23H1 KillerApp-ChatGPT出现 23Q2至今 众多图像生成应用涌现 24H2~25H1 文生视频 视频生成或迎来ChatGPT时刻 2025年及以后 3D生成领域加速发展 基石 理论 2017年6月Transformer 架构提出 2020年6月DDPM提出 2022年4月Diffusion basemodelkickoff 2020年3月NeRF论文发表; 2023年8月提出 3DGaussianSplatting 核心模型 / 2022年9月出现Make-A- Video、ImagenVideo等 ;2024年2月Sora模型 2021年1月DALL-E为初 代模型,22年8月StableDiffusion基石开源模型 2018年10月Bert初代模 型推出,2020年6月 代表应用 2022年11月ChatGPT推出,成为杀手级应用 2023年3月Midjourney -V5推出,成为代表应用 2023年11月29日Pika- 1.0推出,拉开视频生成 应用的帷幕 2023年12月Tripo的推出和 2024年1月Genie-1.0文生3D 应用崭露头角 GPT-3奠定基石闭源模型 从理论到应用的历时逐步缩短,多模态时代加速到来 资料来源:西南证券 3 1.1.2发展现状:文本端技术路径收敛于LLM,视觉生成领域仍在探索 从技术路径收敛情况来看:1)文本生成方面,在OpenAIGPT系列模型的引领下,大语言模型 (LLM—largelanguagemodel)已成为当前文本端的确定性路径。2)多模态方面,图像和视频生成的技术路径均未收敛。图像和视频生成主要包括两大路径:扩散模型(DiffusionModel)和自回归模型(AutoregressiveModel),其中,扩散模型是当前主流,而基于transformer架构的自回归模型具备较大潜力,扩散模型也逐步呈现结合Transformer的发展趋势。 多模态大模型技术路径情况 技术路径 当前主流 潜在路径 是否收敛 文本生成 当前技术路径 已收敛于LLM LLM—Transformer—Decoderonly 图像生成 扩散模型 StabilityAI—StableDiffusion OpenAI—GLIDE,DALL-E2 Google—Imagen&Imagen2 基于transformer的自回归模型: Google—Parti OpenAI—DALL-E1 扩散模型+transformer架构: OpenAI—DALL-E3 技术路径尚未收敛 视频生成 扩散模型: StabilityAI-StablevideoDiffusion Google—ImagenVideo 基于transformer自回归模型: Google—VideoPoet 扩散模型+transformer架构: Google—W.A.L.T OpenAI—Sora 技术路径尚未收敛 3D生成 3D原生: OpenAI—Shape-E Nvidia—Get3D 技术路径 尚未收敛 2D向3D升维:先由扩散模型实现text- to-2D,再由NeRF实现2D-to-3D OpenAI—Point-E Google—DreamFusio Nvidia—Magic3D 资料来源:西南证券 4 1.2.1路径对比:扩散模型占据主流,自回归模型潜力可期 扩散模型:成为文生图和文生视频领域主流技术路径的核心原因Available:基于扩散的StableDiffusion模型选择开源,使广大开发者能够在此基础上运用和优化扩散模型,其公开可用的特性使之成为图像和视频生成领域的主流基础模型; 扩散模型VS自回归模型 自回归模型:在视觉生成领域具备较大发展潜力的主要原因Scalable:基于transformer的自回归模型相较于扩散模型更适合、更容易做规模扩展(scaleup)。目前,扩散模型的参数规模通常在billion(十亿)级别,而自回归模型得益于transformer架构,参数具备更大的扩展潜力,图像和视频领域的自回归模型有望借鉴transformer在文本领域LLM的经验,通过对不同模态进行跨模态、规模化的建模,实现“大力出奇迹”。 扩散模型 自回归模型 原理 扩散过程是指对数据逐渐增加高斯噪音直至数据变成随机噪音的过程,扩散模型包含前向扩散过程和反向生成过程。 通过编码器将文本转化成token或序列,应用自回归预测,经过训练好的模型解码输出图像。 优点 ①需要更少的计算资源,计算效率更高,成本更低;②更好的缩放,在处理数据时(压缩/放大)能获得高质量图像。 ①在规模持续增长的情况下能够呈现更好的生成效果;②视频的时间序列结构适合转化为预测下一帧的任务形态。 缺点 蕴含多个(原始模型可能要上千个)前向传播过程,采样程序效率低下;似然估计欠佳,数据泛化能力差。 自回归模型参数量大,对训练数据的质量和体量要求高,整体训练成本高。 模型 图像:①StabilityAI—StableDiffusion;②OpenAI—GLIDE,DALL-E2;③Google—Imagen&Imagen2视频:①StabilityAI—StablevideoDiffusion;②Google—ImagenVideo; 图像:①Google—Parti;②OpenAI—ImageGPT,DALL-E视频:①GoogleVideoPoet 应用 图像:Midjourney;视频:Runway;Pika1.0 / 资料来源:西南证券 5 1.2.1路径对比:扩散模型占据主流,自回归模型潜力可期 基于GAN 第1次关键迭代 Latentdiffusion 第2次关键迭代 Latentdiffusionwithtransformerbackbone 基于languagemodel Autoregressivemodel Masklanguagemodel Pixeldiffusion 基于diffusion 从图像生成模型发展顺序来看:GAN出现最 / 频 技 路 早,其次是基于languagemodel的图像生成图模型(2020年6月OpenAI提出ImageGPT),像最后是基于diffusion技术的扩散模型。视OpenAI于2021年5月提出在扩散过程中使用生显式分类器进行引导,展示出扩散模型的强成大潜力,从此打败此前在图像生成领域统治术多年的GAN模型;而后受益于Stable径Diffusion开源,扩散模型逐步成为图像生成 2020-2023年图像生成领域技术进展 领域的主流模型。 资料来源:西南证券 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 2020 DETR DDPM DDIM; VisonTransformer 2021 CLIP;DALL·E SwinTransformer CogView MAE; SwinTransformerv2; NUWA Latent-Diff;GLIDE 2022 BLIP MaskGIT Make-A-Scene DALL·E2; CogView2 Imagen Parti NUWA-Infinity StableDiffusion;BEiT-3; MidjourneyV3 eDiff-I;MidjourneyV4 2023 BLIP2;MUSE VisualChatGPT;GPT4; MidjourneyV5; Gi