行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展

信息技术 2024-02-18 夏清莹万联证券 John

OpenAI发布Sora，引领AI文生视频行业跨越式发展

行业核心观点：

Sora：OpenAI发布的首个文生视频大模型，可生成长达1分钟的高质量视频。
技术突破：Sora采用扩散transformer架构，创新性地使用视觉数据的patches进行训练，支持多分辨率、长宽比的视频生成。
多维度提升：Sora在视频长度、质量、灵活性和构图等方面实现显著提升，支持图生视频、视频生视频等功能。

主要特点与优势：

灵活性与质量：在原始大小上训练，提升视频采样灵活性与质量，支持宽屏、垂直屏等多种格式。
多角度镜头与编辑：能创建多个角度的镜头，执行广泛编辑任务，包括循环视频、动画图像和前后扩展视频。
物理理解与能力：开始理解物理世界，展现三维一致性等有趣能力，增强视频的真实感与互动性。

行业影响：

格局重塑：Sora在生成视频长度和多角度镜头能力上超越竞品，对AI文生视频行业产生深远影响。
冲击AI文生图赛道：随着视频画质的提升，文生视频领域的产品有可能冲击AI文生图行业。

投资建议：

AI文生视频：关注AI文生视频行业的发展及其对整体AI行业的推动作用。
算力与基础设施：持续关注AI行业对算力、光模块等基础设施的需求增长。
AIGC应用：看好AIGC技术在媒体、游戏等领域的加速落地带来的投资机会。

风险提示：

产业成长性：AI产业面临成长性不确定性。
技术与风险：版权、隐私、技术风险不可忽视。
国内应用：国内AI应用落地进度存在不确定性。
国际关系：中美科技摩擦带来的风险。

结论：

OpenAI的Sora模型代表了AI文生视频领域的重要里程碑，其技术创新与行业影响力预示着AI文生视频及更广范围的AI应用将迎来新的发展阶段。投资者应关注相关行业动态与技术进步，同时警惕潜在的风险因素。

强于大市(维持) ——计算机行业跟踪报告文生视频大模型Sora重磅发布，可生成长达1分钟的视频。2月16日，OpenAI推出其首个文生视频大模型Sora。根据官网介绍，Sora可以生成长达1分钟时长的视频，同时还能保证视频质量，并遵循用户的提示（prompt）。投资要点： Sora是一个扩散transformer，具有强大的语言理解能力，通过在潜在空间训练patches生成视频。对标tokens，OpenAI将视觉数据转换为patches，有效用于Sora大模型训练。Sora是一种扩散模型，通过给出输入的静态噪声以及相关的文本提示（prompt）等调节信息，训练生成原始的“干净”patches。在推理时，OpenAI还可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。与GPT模型类似，Sora使用transformer架构，释放出卓越的扩展性能。立足DALL·E 3和GPT模型，Sora具有强大的语言理解能力，能够生成更加准确遵循用户提示的高质量视频。此外，在固定种子和输入的情况下，可以看到训练计算的增加能显著提升样本视频的质量。 Q4基金重仓略微超配，前十大重仓股组成不变人工智能行业应用多点开花工信部就《国家人工智能产业综合标准化体系建设指南》公开征求意见多维度跨越式突破，视频质量飞跃性提升。Sora的采样更具有灵活性，同时改进了框架和构图。Sora可以采样宽屏1920x1080p的视频、垂直1080x1920的视频以及介于两者之间的所有视频。这让Sora可直接以不同的原始长宽比创建内容。OpenAI还通过经验发现，在视频的原始长宽比上进行训练可以改善构图和框架。Sora还支持图生视频、视频生视频，能执行广泛的图像和视频编辑任务，创建完美的循环视频、动画静态图像、向前或向后扩展视频等。在连接视频上，Sora能将两个输入视频无缝衔接在一起。虽然目前Sora仍然有一些缺陷和局限性，但已经开始理解物理意义，并出现许多有趣的涌现能力，如三维一致性。重塑AI文生视频行业格局，或冲击AI文生图赛道。Sora在生成视频长度上大幅领先，多角度镜头能力也显著领先行业竞品。同样的prompt，Sora生成的视频长度、质量都显著领先。Sora可以生成可变大小的图像，最高可达2048×2048分辨率，图片画质有了大幅提升。我们认为随着文生视频画质能力的提升，图片作为单帧的视频，文生视频领域的产品或将冲击文生图行业。投资建议：1)AI文生视频行业发展带动AI行业应用落地的机遇；2）AI行业发展对算力、光模块等基础设施的持续需求；3）AIGC在媒体、游戏等行业的加速落地带来的投资机遇。风险提示：AI产业发展不及预期；AI带来的版权、隐私及技术风险；国内AI应用落地不及预期；中美科技摩擦风险。正文目录 1 OpenAI发布Sora，AI文生视频大模型跨越性突破...................................................3 1.1 OpenAI首个文生视频大模型SORA重磅推出...................................................31.2多维度跨越式突破，视频质量飞跃性提升........................................................51.3重塑AI文生视频行业格局，或冲击AI文生图赛道........................................7 2投资建议...........................................................................................................................9 3风险提示...........................................................................................................................9 图表1：Sora一分钟展示视频的prompt及部分截图....................................................3图表2：Sora将视觉数据转换为patches的示意图........................................................3图表3：Sora通过扩散还原视频的示意图......................................................................4图表4：不同训练计算生成的样本视频对比..................................................................4图表5：使用正方形裁剪（左）与使用原始大小（右）的训练视频效果对比..........5图表6：向后扩展视频示意..............................................................................................5图表7：从左上图逐渐转化至右下图的场景示意..........................................................6图表8：Sora三维一致性示意图......................................................................................6图表9：其他文生视频产品的部分参数统计..................................................................7图表10：相同prompt的生成视频成果对比...................................................................8图表11：Sora的图像生成样本........................................................................................8 1OpenAI发布Sora，AI文生视频大模型跨越性突破 1.1OpenAI首个文生视频大模型SORA重磅推出文生视频大模型Sora重磅发布，可生成长达1分钟的视频。2月16日，OpenAI推出其首个文生视频大模型Sora。根据官网介绍，Sora可以生成长达1分钟时长的视频，同时还能保证视频质量，并遵循用户的提示（prompt）。资料来源：OpenAI，万联证券研究所注：翻译内容来自Microsoft Edge网页自带翻译。将视觉数据转换为patches，有效用于Sora大模型训练。LLM范式的成功部分受益于使用tokens，tokens能够将文本的多种模态（代码、数学、各种自然语言）统一起来。OpenAI基于LLMs使用文本tokens的灵感，将所有视觉数据转化为patches，在Sora中实现类似的效果。根据OpenAI的介绍，patches此前就已经被证明是视觉数据模型的有效表示，同时OpenAI还发现，patches在训练生成不同类型视频和图像模型中是一种高度可扩展且有效的表示。资料来源：OpenAI，万联证券研究所 Sora是一个扩散transformer（diffusion transformer），通过在潜在空间训练patches生成视频。具体来看视频生成的过程，1）首先将视频压缩到低维的潜在空间：OpenAI训练了一个降低视觉数据维度的网络，通过这个网络原始视频会在时间和空间上都被压缩，并输出为潜在表示；2）用时空潜在patches训练Sora：Sora在这个压缩后的潜在空间中接受训练，基于从原始视频中提取的时空潜在patches，OpenAI能够使得Sora对不同分辨率、持续时间和长宽比的视频和图像进行训练（图像相当于单帧视频）；3）解码生成新视频：OpenAI训练了对应的解码器模型，将Sora在潜在空间训练生成的视频（潜在表示）映射回像素空间；在推理时，OpenAI还可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。Sora是一种扩散模型，通过给出输入的静态噪声以及相关的文本提示（prompt）等调节信息，训练生成原始的“干净”patches。与GPT模型类似，Sora使用transformer架构，释放出卓越的扩展性能。资料来源：OpenAI，万联证券研究所训练计算的增加可以显著提升视频质量。在固定种子和输入的情况下，可以看到训练计算的增加能显著提升样本视频的质量。资料来源：OpenAI，万联证券研究所立足DALL·E 3和GPT模型，Sora具有强大的语言理解能力，能够生成更准确、更高质量的视频。OpenAI将DALL·E 3的re-captioning技术应用在Sora中，先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中所有视频生成文本字幕，通过对高度描述性视频字幕进行训练，能够提供文本的保真度以及视频的整体质量。此外，OpenAI还利用GPT将简短的用户prompt转化为较长的详细字幕，然后发送到视频模型中，使得Sora能够生成更加准确遵循用户提示的高质量视频。 1.2多维度跨越式突破，视频质量飞跃性提升 Sora的采样更具有灵活性，同时改进了框架和构图。过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸，例如4秒的视频分辨率为256x256。而OpenAI的研究发现在原始大小的数据上进行训练，采样更具灵活性、同时可以提高视频质量。Sora可以采样宽屏1920x1080p的视频、垂直1080x1920的视频以及介于两者之间的所有视频。这让Sora可直接以不同的原始长宽比创建内容。Sora还支持在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型——所有内容都使用相同的模型。OpenAI还通过经验发现，在视频的原始长宽比上进行训练可以改善构图和框架。研究团队将Sora与其他模型的一个版本进行比较，该版本将所有训练视频裁剪为方形。在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频（左图），相比之下，来自Sora的视频有改进的帧内容（右图）。资料来源：OpenAI，万联证券研究所 Sora还支持图生视频、视频生视频，能够向前/向后扩展视频。Sora能基于DALL·E3的图像生成视频，还能执行广泛的图像和视频编辑任务，创建完美的循环视频、动画静态图像、向前或向后扩展视频等。以下是Sora从一段生成的视频向后拓展出的三个新视频，可以看到新视频的开头各不相同，但拥有相同的结尾。资料来源：OpenAI，万联证券研究所在连接视频上，Sora能将两个输入视频无缝衔接在一起。如下图所示，左上图是村庄，右下图是海洋，看似毫不相关的场景，Sora通过逐渐放大河流，合理、无缝地从左上→左下→右上→右下实现两个视频的转化连接。资料来源：OpenAI，万联证券研究所虽然目前Sora仍然有一些缺陷和局限性，但已经开始理解物理世界，并出现许多有趣的涌现能力。Sora目前还存在许多局限性，例如不能准确模拟许多基本交互的物理现象，如玻璃碎裂；如吃食物，并不总能产生正确的物体状态变化。但我们认为Sora已经接触到了世界模型的范畴。Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式。OpenAI发现，视频模型在经过大规模训练后，会表现出许多有趣的新能力。这

点击免费查看完整报告

计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展

OpenAI发布Sora，引领AI文生视频行业跨越式发展

行业核心观点：

主要特点与优势：

行业影响：

投资建议：

风险提示：

结论：

你可能感兴趣

电子行业先进科技主题周报周观点：谷歌发布AI大模型Gemini2.0，OpenAI推出文生视频Sora Turbo

通信：OpenAI推出文生视频模型Sora，AI模型发展迎来里程碑

电子行业周报2024/2/5-2023/2/18：OpenAI重磅发布文生视频AI大模型Sora，持续关注AI产业链

多模态AI大模型点评：OpenAI发布首款文生视频大模型Sora，训练算力需求大幅提升

人工智能专题研究系列四：OpenAI发布Sora文生视频模型，AI行业持续高速发展

【财联社早知道】刷屏! OpenAI发布首个文生视频模型这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

计算机：Openai发布文生视频模型Sora，AI视频商用不再遥远

互联网传媒行业周报：OpenAI发布文生成视频大模型，Sora引领AI视频创新

计算机行业点评：Sora惊艳发布，文生视频跨越式突破

人工智能行业跟踪报告：OpenAI发布文生视频模型Sora，有望开启算力需求新空间

计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展

你可能感兴趣

电子行业先进科技主题周报周观点：谷歌发布AI大模型Gemini2.0，OpenAI推出文生视频Sora Turbo

通信：OpenAI推出文生视频模型Sora，AI模型发展迎来里程碑

电子行业周报2024/2/5-2023/2/18：OpenAI重磅发布文生视频AI大模型Sora，持续关注AI产业链

多模态AI大模型点评：OpenAI发布首款文生视频大模型Sora，训练算力需求大幅提升

人工智能专题研究系列四：OpenAI发布Sora文生视频模型，AI行业持续高速发展

【财联社早知道】刷屏! OpenAI发布首个文生视频模型 这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

计算机：Openai发布文生视频模型Sora，AI视频商用不再遥远

互联网传媒行业周报：OpenAI发布文生成视频大模型，Sora引领AI视频创新

计算机行业点评：Sora惊艳发布，文生视频跨越式突破

人工智能行业跟踪报告：OpenAI发布文生视频模型Sora，有望开启算力需求新空间

【财联社早知道】刷屏! OpenAI发布首个文生视频模型这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219