Sora对算力需求影响几何? 核心观点: Sora算力需求将呈指数级增长,带动算力基础设施需求。北京时间2月16日凌晨,OpenAI发布了首个文生视频模型Sora,可以用文字指令生成长达60秒的高清流畅视频,在生成视频长度、连贯性、多镜头切换方面具备显著优势。本文基于大语言模型推导算力需求方法,对Sora单次训练算力需求进行 推演,据相关研究推测,Sora参数规模估算在30B(待确认),如果按此参数 测算,我们推演出Sora训练单次算力需求或可达到8.4×10^23Flops,相当于GPT-3175B的2.7倍。我们认为,目前Sora还在初级阶段,仍然存在如能以准确模拟物理运动规律及场景、混淆左右方向、混淆空间细节等,但伴随Sora 不断迭代调优,训练数据集规模增大,未来算力需求将呈现指数级爆发式增长,持续看好上游算力基础设施投资机会。 Sora基于DiT架构,采用Transformer替换U-Net。Sora实际上是一种基于DiT(DiffusionTransformer,扩散变换器)的模型搭建。,同时采用了Diffusion与Transformer,是一种用于扩散模型的新架构。Sora受到大语言模型的启发,用Transformer替换扩散模型中的U-Net,通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT,趋于标准Transformer架构,同时保留其可扩展性。与大语言模型将文本转换为可被理解的token类似,Sora将视频转换成一系列Patch(视觉编码块)并将其进行降维,用Patch作为视觉图像统一表现形式,将噪声通过去噪来预测原始图像信息,进而生成视频。 Sora实现跨越式提升,文生视频大模型开启新纪元。Sora可以将Prompt转换成长达60秒视频,相对于此前文生视频大模型Runway、Pika、StableVideo等提升几个级别。同时在视频分辨率以及质量方面,Sora可以生成1080P清晰度视频,并且能够相对完整实现对世界及物体运动规律理解及模拟,在镜头切换方面保持稳定性。此外,Sora还支持图片格式输入、视频扩展、视频拼接等,是文生视频领域突破性技术变革。 投资建议:Sora是人工智能发展进程中的“里程碑”,推动AGI时代加速到来,算力需求将持续爆发,持续看好产业链投资机会。建议重点关注国内上市公司:1、国内多模态大模型:科大讯飞、海康威视、大华股份;2、算力基础设施:工业富联、中科曙光、软通动力、神州数码、曙光数创、润泽科技、拓维信息;3、AI应用端:万兴科技、金山办公、超图软件、彩讯股份、拓尔思、卫宁健康、嘉和美康等。 风险提示:技术研发进度不及预期风险;供应链风险;政策推进不及预期风险;消费需求不及预期风险;行业竞争加剧风险等。 计算机行业 推荐维持评级 分析师 吴砚靖 :(8610)66568589 :wuyanjing@chinastock.com.cn分析师证书编码:S0130519070001 研究助理胡天昊 :(8610)80927637 :hutianhao_yj@chinastock.com.cn 相对沪深300表现图2024-2-22 资料来源:wind,中国银河证券研究院 行业动态报告●计算机行业 2024年2月24日 www.chinastock.com.cn证券研究报告请务必阅读正文最后的中国银河证券股份有限公司免责声明 目录 一、Sora大模型横空出世,AGI时代加速到来3 二、Sora基于DiT模型搭建,更适用文生视频领域4 三、Sora算力分析框架详解,是GPT-3175B所需算力0.5倍6 四、Sora对算力需求将呈指数级增长7 一、Sora大模型横空出世,AGI时代加速到来 北京时间2月16日凌晨,OpenAI发布了首个文生视频大模型Sora,并配有48个生成案例及技术报告,能够通过自然语言指令生成长达60秒的高清流畅视频,在生成视频长度、清晰度、连贯性、多镜头切换方面都有显著提升。 图1:Sora对同类产品对比 资料来源:数字经济先锋号,中国银河证券研究院 Sora在文生视频领遥遥领先。Sora可以将简短文本描述转换成一分钟流畅视频,相对于Runway、Pika、StableVideo等提升了几个代级。1)生成视频长度:Runway、Pika等传统文生视频大模型平均时长在3-5秒,Runway用户可以最多延长视频长度至16秒,Sora相对传统视频生成工具提升15-20倍;2)视频质量显著提升:生成;3)可实现多镜头切换:可以理解和模拟运动中的物理规律,可以实现复杂的运动相机模拟;4)视频连贯性与稳定性更好:在建模能力上表现更好,可以依赖关系进行建模,能初步理解及模拟物理运动规律;5)高可拓展性:支持多种数据格式输入,具备实现文生视频、图生视频、向前或向后视频扩展能力,同时支持视频连接。 表1:Sora与其他文生视频大模型能力对比 细分能力项 Sora 其他文生视频大模型 视频基本参数 视频时长 视频分辨率 60秒 1920×1080 平均3-5秒,最多可延长至16秒固定尺寸,如16:9,1:1等 视频清晰度 1080P upscale后达到4K 视频质量 真实世界模拟 强 弱 运动相机模拟 强 弱 文本 √ √ 输入类型 图片 √ √ 视频 √ √ 建模能力 依赖关系进行建模影响世界状态 强强 弱弱 人工过程(数字世界)模拟强弱 拓展能力 资料来源:CSDN,中国银河证券研究院 视频拓展向前/向后仅支持向后视频连接√× 二、Sora基于DiT模型搭建,更适用文生视频领域 Sora实际上是一种基于DiT(DiffusionTransformer,扩散变换器)的模型搭建。,同时采用了Diffusion与Transformer,是一种用于扩散模型的新架构。DiT尽可能趋于标准Transformer架构,以保留其可扩展性。 扩散模型广泛应用于视频生成领域,采用编码器-解码器架构。扩散模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训练,可以减少小批量梯度的方差并加快优化速度,迅速取代了基于生成对抗网络(GANs)和自回归变换器的方法,成为图像生成的主导方法。 Sora受到大语言模型的启发,用Transformer替换扩散模型中的U-Net,通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT。 图2:DiT模块架构 资料来源:《ScalableDiffusionModelswithTransformers》,中国银河证券研究院 Sora将视频降维成时空Patch作为视频数据对模型进行训练。首先为了适应大模型支持的上下文长度,降低处理复杂度,类似ViT(VisionTransformer)将图像进行处理,将图像进行降维分解,这样一来可以兼容所有的数据素材(静态图像可以看成是在时间t=0的一些列Patch)。 图3:ViT模型架构 资料来源:《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》,中国银河证券研究院 Sora采用DiT模型,通过VAE将视频压缩到LatentSpace(潜在空间)中,然后将这种表现形式分解成时空Patch(视频块),相当于大语言模型中的token。 图4:将视频解码降维成Patch 资料来源:OpenAI官网,中国银河证券研究院 Sora通过给定输入噪声及Prompt(文本提示信息),训练出的模型来预测原始的不带噪声的图像,类似于通过预测带有马赛克的原始图像,让模型去学习去除马赛克,从而达到去噪声的目的。在生成视频过程中,Sora通过对噪声进行去噪,来预测原始Patch,最后将图片转化为视频。 图5:给定输入噪声,Sora预测原始Patch 资料来源:OpenAI官网,中国银河证券研究院 三、Sora算力分析框架拆解,单次训练算力需求或可达到GPT-3175B 的2.7倍 通常在计算大语言模型算力需求通常与参数量及token数量成正比,而Sora大模型中可以将Patch类比与大语言模型中token,本报告基于大语言模型计算算力需求方法框架及以下三大假设,对Sora算力需求进行分析测算。 假设一:Sora训练数据集为60亿张图片,分辨率为1980×1024;3500万个视频,每个视频平均时长为30秒,分辨率为1980×1024,帧率为60FPS。 根据阿里联合浙江大学、华中科技大学提出的文生视频模型I2VGen-XL,研究人员收集了大约3500万单镜头文本-视频对和60亿文本-图像对来优化模型。我们暂且保守假设Sora训练数据集与I2VGen-XL相同,同时二维向量空间图片表示为H×W×C(其中H为长度,W为宽度,C为RGB颜色通道数,假设C=3)。 我们估算Sora训练数据集中视频类数据Patch规模=3500×10^4×60×30×3=6.3×10^10;图片类数据Patch规模=60×10^8×1024×1980×3=1.22×10^16;训练数据集总Patch=图片类数据Patch视频类数据Patch=1.22×10^16。 假设二:Sora中PatchSize为16×16,将Patch转化为token。 根据谷歌论文《ANIMAGEISWORTH16×16WORDS:TRANSFORMERSFORIMAGERECOGNITION ATSCALE》,Transformer的输入是一个序列,对于一张图像来说如果把每个像素点当作一个token,那就会需要相当旁大的计算量,该文则将图像划分为16×16大小的一个个Patch,然后将每个Patch当作一个token组成一串序列作为Transformer的输入,减少了计算成本。我们假设PatchSize为16×16,通过将Patch(N×P×P×C)转换为token,N大小为H×W/(P×P),每个token的大小为P×P ×C,P=16,通过计算得到token=1.22×10^16/(16×16)=4.8×10^13。 图6:Tranformer语义分割方法 资料来源:《RethinkingSemanticSegmentationfromaSeq-to-SeqPerspectivewithTransformer》,中国银河证券研究院 假设三:Sora模型参数为30B,训练一次所需总算力=模型参数量×token数量×3×2。 根据OpenAI论文,T5模型由于采用编码器-解码器模型,在向前和向后传播的过程中只有一半token处于激活状态,而BERT与GPT基于Transformer的自然语言监督模型,每个token都处于活跃状态,而每个token都在向前传播过程中涉及一次加法和一次乘法,论文添加一个3×的乘数来计算向后 传递的计算量,故推出GPT模型所需算力:训练所需总算力=模型参数量×token数量×3×2×训练轮数。通过上述公式我们计算得到Sora训练一次所需算力=30×10^8×4.8×10^13×3×2=8.4×10^23Flops,为9738PF-days。 图7:不同模型训练一轮所需算力需求 资料来源:《LanguageModelsareFew-ShotLearners》,中国银河证券研究院 根据上述测算,基于Sora参数量大概在30亿(待确认)水平,同时采用I2VGen-XL训练数据集水平进行估算,我们保守估计,Sora训练一次所需算力或可达到8.4×10^23Flops,相当于GPT-3175B的2.7倍(测算采用参数和训练数据集规模会与实际有一定出入)。 假设四:Sora模型训练不考虑利用及其他成本,大约需在1万张A100上训练50天。 单张A100算力为19.5TFlops,暂时不考虑模型训练利用率及其他训练成本,如果在10000张英伟达A100进行训练,