您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:多模态AI大模型点评:OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升 - 发现报告
当前位置:首页/行业研究/报告详情/

多模态AI大模型点评:OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升

文化传媒2024-02-17熊莉国信证券坚***
AI智能总结
查看更多
多模态AI大模型点评:OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升

事项: 2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,在多镜头一致性等维度表现出色。 国信计算机观点:1)OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其在视频长度、多角度视频一致性、物理世界理解等领域具有优势;2)Sora技术原理:通过已知Patches推测下一Patches,将Transformer和Diffusion相结合;3)多模态大模型拉动训练算力需求提升。4)投资建议:多模态大模型拉动全球算力需求快速增长,关注国产AI算力侧机会,建议关注国产AI算力龙头公司海光信息。5)风险提示:宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产AI算力芯片导入不及预期等。 评论: OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频 2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其具有60秒超长长度、多角度视频一致性、对物理世界理解等特性。 Sora可生成60秒超长视频。相较于RunwayMLGen-2、Pika等文生视频大模型,Sora可以生成60秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。 Sore多角度视频一致性。Sore可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI官网发布的Demo,59秒的视频中,有多角度镜头,且主人物保持了完美的一致性。 图1:Sora可以生成60秒长视频,且实现多角度视频一致性 图42:根据IDC测算,国内智能算力规模正在高速增长,2021年中国智能 Sore在尝试理解物理世界。根据OpenAI官网披露,Sore不仅可以理解用户Prompt的要求,同时亦尝试理解Prompt中的事物在物理世界中的存在方式(即物理规律)。根据OpenAI官网Demo视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。 图2:OpenAI官网Demo中的汽车颠簸 图3:OpenAI官网Demo中的猫踩奶 图12:算力规模达155.2EFLOPS,2022年智能算力规模将达到 Sora技术原理:Transformer+Diffusion 通过已知Patches推测下一Patches。传统大语言模型通过已知Tokens推测下一Tokens,Sora同大语言模型类似,将视频数据切分成不同Patches(即大语言模型中的Tokens),通过已知Patches推测下一Patches。通常可以分为以下两个步骤:1)将高纬度视频数据压缩成低纬度隐空间(LatentSpace):OpenAI通过训练视频压缩网络实现该步骤,通常将视频数据作为输入(input),后对视频数据进行时间和空间维度的压缩,并输出(output)潜在表示(latentrepresentation)。2)进一步将数据转化为SpacetimePatches:提取一系列的latentSpace作为训练/推理的Tokens,完成对模型的训练。 图4:将视频数据转化为Patches(即Tokens) 图42:根据IDC测算,国内智能算力规模正在高速增长,2021年中国智能 通过Diffusion还原画面。如前文所述,通过已知Patches推测下一Patches,得到的是LatentPatches,OpenAI通过训练Decoder将得到的latent Space映射到像素空间,再通过Diffusion模型进一步还原画面。 图5:通过Diffusion还原画面 图42:根据IDC测算,国内智能算力规模正在高速增长,2021年中国智能 多模态大模型拉动训练算力需求提升 OpenAI没有公布Sora视频数据切割的细节,我们以Ze Liu等著《Video SwinTransformer(2021)》为例,输入一个尺寸为T×H×W×3的视频(此处T选取32,代表从视频中采样得到32帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约10s;每帧包含H×W×3个像素),通过3D Patch Partition可以得到(T/2)*(H/4)*(W/4)个3D Patch( 尺寸为2*4*4*3), 即为Tokens, 之后再经过Video Swin Transformer和PatchMerging获得多帧数据的高维特征,完成视频数据训练。根据《Willwerunoutof data?AnanalysisofthelimitsofscalingdatasetsinMachineLearning(Pablo等著,2022年)》披露数据,Youtube每分钟大约上传500小时视频,则我们可以得到Youtube一年增量视频数据为500×3600×24×365=157.68亿秒。通常分类任务视频为10s左右,对应采样帧数为32,假设每帧图片分辨率为1024×768,则10s视频对应的Token数量为(32/2)*(1024/4)*(768/4)=78.64万个Tokens,则Youtube一年增量视频数据为1.24e15个Tokens,假设使用Youtube一年增量视频数据对5000亿大模型完成一遍训练对应的算力需求为500B×1.24e15×6=3.72e27FLOPs。以英伟达H100为例,在FP16精度下算力为1979TFLOPS,仍假设芯片利用率为46.2%,则3.72e27FLOPs/(1979TFLOPs×46.2%×3600s×24h/天×30天/月)=156.98万张H100/月,即完成对视频数据的训练需使用156.98万张H100训练一个月(针对单一模型,仅计算Youtube一年增量视频数据);且后续Video Frame Interpolation(VFI,帧插值)模块仍需要算力支撑。 投资建议: 多模态大模型拉动全球算力需求快速增长,关注国产AI算力侧机会。AI训练算力同大模型参数、训练Token数量成正比例关系,在模型参数量不变的条件下,训练Token数量的增长会拉动训练算力需求的增长。经我们测算,视频等训练素材将对应巨量的Token数量,进而拉动全球AI算力需求快速增长,我们持续看好国产算力需求提升,建议关注国产AI算力龙头公司海光信息。 风险提示: 宏观经济复苏不及预期,云厂商资本开支不及预期,市场竞争加剧,产品研发不及预期,国产AI算力芯片导入不及预期等。 免责声明