行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

2024-02-28 王湘杰西南证券张东旭

根据您提供的文字内容，主要围绕OpenAI发布的文生视频模型Sora及其技术报告展开讨论。以下是总结归纳的关键点：

主要发现与分析

1. 技术路径与优势

技术路径：Sora基于扩散模型，但强调其是基于Transformer架构的扩散模型，展现出Transformer架构在模型扩展上的优势。
优势凸显：Transformer架构的可扩展性使得Sora在生成能力上表现出色，特别是理解能力、生成能力（长度、复杂度、逼真度、连贯性与一致性、可控性）、以及其他能力（如图生视频、视频编辑等）。

2. 最新能力

理解能力：能理解和模拟物理世界的运作，通过准确解析提示词生成视频。
生成能力
- 长度：能生成60秒的视频。
- 复杂度：生成包含多个角色、多种主题、多类运动形态的复杂场景。
- 逼真度：呈现更多视觉细节，提供高清画质。
- 连贯性与一致性：保持角色外观的一致性，即使在角度移动和切换情况下也能保持场景元素的位置关系。
- 可控性：在特定提示词的基础上微调，仍能生成优质视频。
其他能力：还包括图生视频、视频扩展/编辑/拼接/模拟等。

3. 行业影响与投资建议

行业影响：预计Sora为代表的视频生成模型将给广告、设计、短视频、游戏等行业带来变革，短期内主要作为创作工具赋能相关行业。
投资建议：随着视频生成模型的迭代与应用，算力需求预计将增长，云服务将作为重要补充，高带宽、高性能的光通信需求也将提升。建议关注算力、云服务和光通信领域的投资机会。
风险提示：包括技术进展不及预期、行业竞争加剧、应用开发不足等风险。

结论

OpenAI发布的Sora文生视频模型展示了Transformer架构在视频生成领域的强大潜力，尤其是在理解、生成、可控性和其他功能方面。这一技术突破不仅可能重塑创意产业，还为投资者提供了关注算力、云服务和光通信等领域的机遇。然而，也需要注意技术进步的风险和挑战。

OpenAISora专题 Transformer扩展优势凸显，视频理解与生成能力提升西南证券研究发展中心海外研究团队王湘杰2024年2月核心观点 事件：2024年2月16日，OpenAI发布文生视频模型——Sora及其技术报告《Videogenerationmodelsasworldsimulators》。 从Sora模型看文生视频的技术路径：技术路径尚未收敛，Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径，但没有重视Transformer架构scaleup的能力。OpenAI技术报告指出，Sora是基于扩散模型，但更强调，Sora是一个基于Transformer架构的扩散模型，其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前，为构建性能更优、效率更高的视频生成模型，已出现多种结合DiffusionModel和Transformer架构的构建方式。 从Sora模型看文生视频的最新能力（假设展示视频可以代表Sora的一般性表现）：1）强大的理解能力：Sora模型不仅可以理解Prompt的内容，还能理解事物在物理世界中的存在方式，突出的语言理解能力是其能够准确生成视频的前提。2）优秀的生成能力：①长度：可生成60s视频；②复杂度：能够生成包含多个角色、多种主题、多类运动形态的复杂场景；③逼真度：能够呈现更多的视觉细节，具备更高清的画质，为用户提供逼真的视觉体验；④连贯性&一致性：可以生成同一角色的多个镜头，保持其在整个视频中的外观，在角度移动和切换情况下，人物和场景元素在三维空间中的位置关系能够保持一致的运动；⑤可控性：在某一Prompt基础上只改动一个关键词仍能生成优质的视频，具备较好的可控性。3）其他能力：图生视频，视频扩展/编辑/拼接/模拟等。 从Sora模型看文生视频的行业影响：目前OpenAI已向部分视觉艺术家、设计师和电影制作人提供访问权限，以获取专业的反馈。我们认为，以Sora为代表的视频生成模型有望给广告/设计/短视频/游戏等行业带来变化。从中短期来看，视频生成模型将更多的作为创作工具对相关行业进行赋能。 投资建议：随着文生视频模型的迭代升级和未来的大规模应用，算力需求有望增长，云服务有望成为算力的重要补充，视频传输也将带动高带宽、高性能的光通信需求，建议关注算力、云服务和光通信领域投资机会。相关标的：英伟达(NVDA.O)、超威半导体(AMD.O)、微软(MSFT.O)等。 风险提示：技术进展不及预期风险；行业竞争加剧风险；应用开发不及预期风险。 1 目录 1从Sora看文生视频模型的技术路径 1.1发展现状：视觉生成热潮兴起，路径探索仍在继续 1.2路径对比：扩散模型占据主流，自回归模型潜力可期 1.3未来趋势：transformer优势凸显，多种模型构建方式有望呈现 2从Sora看文生视频模型的最新能力 2.1模型背景：团队成员年轻有为，相关技术积累深厚 2.2理解能力：领会并细化提示词，学习及模拟物理世界 2.3生成能力：视频长度优势明显，连贯性及可控性提升 2.4其他能力：图生视频，视频扩展/编辑/拼接/模拟等 3从Sora看文生视频模型的影响 3.1算力端：参数扩展提升训练算力消耗，应用落地拉动推理算力增长 3.2应用端：文生视频模型拓宽应用广度，前期有望以助手角色落地 3.3其他：云服务将成算力重要补充，多媒体传输带动光通信需求 2 1.1.1发展现状：多模态发展已成共识，视觉生成热潮逐步兴起 从模态发展情况来看：AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前，大语言模型在文本端的应用趋于成熟，图像和视频生成技术快速发展，AI视觉浪潮正加速到来。 从市场催化节奏来看：受文本端杀手级应用ChatGPT（于22年11月推出）和图像生成代表应用MidjourneyV5（于23年3月推出）的影响，文本端和图像生成应用已于2023年迎来市场催化。2024年2月16日，OpenAI发布Sora文生视频，引发市场对视频生成领域的高度关注。未来，随着模型的持续迭代和相关应用的涌现，视频生成领域有望在24年迎来热潮。趋势文本端文生图像大模型多模态发展情况文生3D 22年底~23H1 KillerApp-ChatGPT出现 23Q2至今众多图像生成应用涌现 24H2~25H1 文生视频视频生成或迎来ChatGPT时刻 2025年及以后 3D生成领域加速发展基石理论 2017年6月Transformer 架构提出 2020年6月DDPM提出 2022年4月Diffusion basemodelkickoff 2020年3月NeRF论文发表； 2023年8月提出 3DGaussianSplatting 核心模型 / 2022年9月出现Make-A- Video、ImagenVideo等；2024年2月Sora模型 2021年1月DALL-E为初代模型，22年8月StableDiffusion基石开源模型 2018年10月Bert初代模型推出，2020年6月代表应用 2022年11月ChatGPT推出，成为杀手级应用 2023年3月Midjourney -V5推出，成为代表应用 2023年11月29日Pika- 1.0推出，拉开视频生成应用的帷幕 2023年12月Tripo的推出和 2024年1月Genie-1.0文生3D 应用崭露头角 GPT-3奠定基石闭源模型从理论到应用的历时逐步缩短，多模态时代加速到来资料来源：西南证券 3 1.1.2发展现状：文本端技术路径收敛于LLM，视觉生成领域仍在探索 从技术路径收敛情况来看：1）文本生成方面，在OpenAIGPT系列模型的引领下，大语言模型（LLM—largelanguagemodel）已成为当前文本端的确定性路径。2）多模态方面，图像和视频生成的技术路径均未收敛。图像和视频生成主要包括两大路径：扩散模型（DiffusionModel）和自回归模型（AutoregressiveModel），其中，扩散模型是当前主流，而基于transformer架构的自回归模型具备较大潜力，扩散模型也逐步呈现结合Transformer的发展趋势。多模态大模型技术路径情况技术路径当前主流潜在路径是否收敛文本生成当前技术路径已收敛于LLM LLM—Transformer—Decoderonly 图像生成扩散模型 StabilityAI—StableDiffusion OpenAI—GLIDE,DALL-E2 Google—Imagen&Imagen2 基于transformer的自回归模型： Google—Parti OpenAI—DALL-E1 扩散模型+transformer架构： OpenAI—DALL-E3 技术路径尚未收敛视频生成扩散模型： StabilityAI-StablevideoDiffusion Google—ImagenVideo 基于transformer自回归模型: Google—VideoPoet 扩散模型+transformer架构： Google—W.A.L.T OpenAI—Sora 技术路径尚未收敛 3D生成 3D原生： OpenAI—Shape-E Nvidia—Get3D 技术路径尚未收敛 2D向3D升维：先由扩散模型实现text- to-2D，再由NeRF实现2D-to-3D OpenAI—Point-E Google—DreamFusio Nvidia—Magic3D 资料来源：西南证券 4 1.2.1路径对比：扩散模型占据主流，自回归模型潜力可期 扩散模型：成为文生图和文生视频领域主流技术路径的核心原因Available：基于扩散的StableDiffusion模型选择开源，使广大开发者能够在此基础上运用和优化扩散模型，其公开可用的特性使之成为图像和视频生成领域的主流基础模型；扩散模型VS自回归模型 自回归模型：在视觉生成领域具备较大发展潜力的主要原因Scalable：基于transformer的自回归模型相较于扩散模型更适合、更容易做规模扩展（scaleup）。目前，扩散模型的参数规模通常在billion（十亿）级别，而自回归模型得益于transformer架构，参数具备更大的扩展潜力，图像和视频领域的自回归模型有望借鉴transformer在文本领域LLM的经验，通过对不同模态进行跨模态、规模化的建模，实现“大力出奇迹”。扩散模型自回归模型原理扩散过程是指对数据逐渐增加高斯噪音直至数据变成随机噪音的过程，扩散模型包含前向扩散过程和反向生成过程。通过编码器将文本转化成token或序列，应用自回归预测，经过训练好的模型解码输出图像。优点 ①需要更少的计算资源，计算效率更高，成本更低；②更好的缩放，在处理数据时（压缩/放大）能获得高质量图像。 ①在规模持续增长的情况下能够呈现更好的生成效果；②视频的时间序列结构适合转化为预测下一帧的任务形态。缺点蕴含多个（原始模型可能要上千个）前向传播过程，采样程序效率低下；似然估计欠佳，数据泛化能力差。自回归模型参数量大，对训练数据的质量和体量要求高，整体训练成本高。模型图像：①StabilityAI—StableDiffusion;②OpenAI—GLIDE,DALL-E2;③Google—Imagen&Imagen2视频：①StabilityAI—StablevideoDiffusion;②Google—ImagenVideo; 图像：①Google—Parti;②OpenAI—ImageGPT,DALL-E视频：①GoogleVideoPoet 应用图像：Midjourney；视频：Runway；Pika1.0 / 资料来源：西南证券 5 1.2.1路径对比：扩散模型占据主流，自回归模型潜力可期基于GAN 第1次关键迭代 Latentdiffusion 第2次关键迭代 Latentdiffusionwithtransformerbackbone 基于languagemodel Autoregressivemodel Masklanguagemodel Pixeldiffusion 基于diffusion 从图像生成模型发展顺序来看：GAN出现最 / 频技路早，其次是基于languagemodel的图像生成图模型（2020年6月OpenAI提出ImageGPT），像最后是基于diffusion技术的扩散模型。视OpenAI于2021年5月提出在扩散过程中使用生显式分类器进行引导，展示出扩散模型的强成大潜力，从此打败此前在图像生成领域统治术多年的GAN模型；而后受益于Stable径Diffusion开源，扩散模型逐步成为图像生成 2020-2023年图像生成领域技术进展领域的主流模型。资料来源：西南证券 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 2020 DETR DDPM DDIM; VisonTransformer 2021 CLIP;DALL·E SwinTransformer CogView MAE; SwinTransformerv2; NUWA Latent-Diff；GLIDE 2022 BLIP MaskGIT Make-A-Scene DALL·E2； CogView2 Imagen Parti NUWA-Infinity StableDiffusion;BEiT-3; MidjourneyV3 eDiff-I；MidjourneyV4 2023 BLIP2;MUSE VisualChatGPT;GPT4; MidjourneyV5; Gi

点击免费查看完整报告

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

主要发现与分析

1. 技术路径与优势

2. 最新能力

3. 行业影响与投资建议

结论

你可能感兴趣

国君电子王聪团队【OpenAI发布扩展视频生成模型Sora，AI算力基建加速】

电子板块推荐点评：OpenAI发布扩展视频生成模型Sora，算力基建加速

传媒行业点评报告：AGI里程碑：OPENAI发布视频生成模型SORA，多模态有望加速

【风口研报·行业】OpenAl正式发布视频生成模型Sora，分析师多角度看Sora颠覆之处，并看好这几家深耕虚拟现实产业的公司或将受益;OpenAI计划筹集数万亿美金扩张GPU等AI算力基建

计算机：OpenAI Sora模型发布，视频生成技术迎来突破性升级

周一舆情热度：①人工智能-OpenAI发布首个文生视频模型Sora，可以使用文字指令生成长达一分钟的高清视频

热议1、Sora（文生视频）：2024年2月16日OpenAI发布了文生视频模型Sora，可以在用户的要求下生成视频

人工智能行业双周报：OpenAI发布视频生成模型Sora，Google推出多模态Gemini 1.5版本

人工智能周报(24年第7周)：OpenAI推出Sora模型一句话生成1分钟视频，亚马逊开发出有史以来最大的文本转语音模型

计算机：OpenAI发布Sora，AI生成视频的里程碑

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升

你可能感兴趣

国君电子 王聪团队【OpenAI发布扩展视频生成模型Sora，AI算力基建加速】

电子板块推荐点评：OpenAI发布扩展视频生成模型Sora，算力基建加速

传媒行业点评报告：AGI里程碑：OPENAI发布视频生成模型SORA，多模态有望加速

【风口研报·行业】OpenAl正式发布视频生成模型Sora，分析师多角度看Sora颠覆之处，并看好这几家深耕虚拟现实产业的公司或将受益;OpenAI计划筹集数万亿美金扩张GPU等AI算力基建

计算机：OpenAI Sora模型发布，视频生成技术迎来突破性升级

周一舆情热度：①人工智能-OpenAI发布首个文生视频模型Sora，可以使用文字指令生成长达一分钟的高清视频

热议1、Sora（文生视频）：2024年2月16日OpenAI发布了文生视频模型Sora，可以在用户的要求下生成视频

人工智能行业双周报：OpenAI发布视频生成模型Sora，Google推出多模态Gemini 1.5版本

人工智能周报(24年第7周)：OpenAI推出Sora模型一句话生成1分钟视频，亚马逊开发出有史以来最大的文本转语音模型

计算机：OpenAI发布Sora，AI生成视频的里程碑

国君电子王聪团队【OpenAI发布扩展视频生成模型Sora，AI算力基建加速】