核心观点 Sora是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如 ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。 Sora的成功源于DiffusionTransformer架构的引入,和过去多年高质量数据的积累。 从架构上看,视频生成模型的技术路线开始收敛,Sora的DiffusionTransformer架构证实了有效scale-up也即是增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3时刻"。类似于GPT-3证明了更大的训练量、 模型参数量、Token数量,训练效果越好。引入了Transformer的Sora也表现出了同样的趋势,OpenAI进行了32x训练量和1x、4x训练量的对比,从结果上看,32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后Google、Snap也发布了采用类似技术的视频生成模型,确定了DiffusionTransformer的视频生成路线,并且算力的需求会大大提升。 从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora利用自有工具增强训练数据集与提示工程。OpenAI 训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调Sora以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora执行了一个额外的提示扩展步骤,即调用GPT-4V模型将用户输入扩展到详细的描述性提示。 我们认为,随着DiffusionTransformer类模型大量应用于图像及视频生成,推理需求将大幅增加,与LLM推理更需要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora的DiT和大语言模型在推理时的逻辑不同,Diffusion需要约20Steps优化过程,每次均是计算的完整的patch,访存需求也会大大下降, 从LLM推理的访存密集型场景转变成算力密集型场景。 Sora高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作, 后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙述中生成角色动作。 风险提示 模型架构的大幅改变影响算力需求分布算力速度发展不及预期 中美科技领域政策恶化 内容目录 一、Sora模型的特点4 1.1Sora在生成视频的质量、灵活性和时长上与之前的模型有代际差距4 二、视频生成模型的历史与现状5 2.1文生视频是个年轻的方向,最早能追溯到15年的基于GAN生成模型5 2.2GAN和VAE时代6 2.3TransformerBased6 2.4DiffusionBased6 2.5视频生成模型的前沿:把卷积网络卷出了DiffusionModel7 2.6国内的绝大多数文生视频模型还处于Diffusion阶段,研发机构也在快速跟进8 三、Sora模型逆向工程9 3.1VideoEncoding:将视频信息有效的转化为机器理解的方法是至关重要的9 3.2模型的核心部分:DiffusionTransformer11 3.3大语言模型训练和推理对计算资源的需求分布不同12 3.4对算力需求的影响:Patch/Token数量的大幅提高对内存容量需求有积极影响14 3.5对算力需求的影响:推理时算力需求的增长大于内存速率需求的增长15 四、世界模型之争:三种AI路线的争论16 五、高质量视觉模型的出现的应用和对行业的影响17 5.1影视制作18 5.2游戏18 六、风险提示19 图表目录 图表1:Sora在镜头和人物变化下的连贯性和一致性被认为是ScalingLaw下涌现出的能力错误!未定义书签。图表2:Sora适配任务场景非常丰富,覆盖了图像生成/编辑领域大多数任务5 图表3:视频生成模型发展历史6 图表4:最初的GAN文生视频模型在分辨率、上下文和长度方面极为有限6 图表5:DiT证明了ScalingLaw在图像领域的生效7 图表6:Genie在生成视频中对主体动作的识别更为优秀8 图表7:国产视频生成模型比较8 图表8:Sora模型概览9 图表9:Sora技术报告中的Encoding模式9 图表10:视频生成模型Patch方法对比10 图表11:Sora生成不同比例的视频内容保存度更好10 图表12:Navit的数据处理方法11 图表13:DiT的核心架构11 图表14:不同算力下Sora生成视频的对比11 图表15:大语言模型最新发展追踪12 图表16:大语言模型训练和推理过程的计算需求分布12 图表17:大语言模型训练过程13 图表18:大语言模型推理过程13 图表19:视频生成模型与大语言模型对计算资源的不同需求14 图表20:Diffusion模型推理生成图片的过程15 图表21:目前用于训练和推理计算卡的算力/内存对比15 图表22:LeCun提出的世界模型16 图表23:V-JEPA实现的视频预测16 图表24:通往AGI的不同流派16 图表25:视频生成模型的应用行业17 图表26:代表AI应用访问量热度变化17 图表27:AI辅助制作的《千秋诗颂》18 图表28:AI全流程制作的《中国神话-补天》片花18 图表29:根据Sora生成的视频制作的3D模型19 图表30:Genie实现操作输入图片中的主体19 一、Sora模型的特点 1.1Sora在生成视频的质量、灵活性和时长上与之前的模型有代际差距 较长的视频生成时长:Sora可以生成长达60秒的高保真度视频。对比之前的视频生成模型,Pika1.0可以生成3s-7s的视频,Runway的Gen-2可以生成4s-18s的视频。 灵活的分辨率:得益于其训练数据的灵活性,Sora可以生成1080P的任何比例视频,而不是像之前的模型在生成非原生训练比例时会出现画幅的消失。 高保真渲染:在模拟数字世界时,如Minecraft游戏,Sora能够实现高保真的渲染效果,使得生成的视频内容看起来就像真实游戏画面一样。 存在ScalingLaw:更高的算力、更大的模型规模、patch数量的增加能对生成视频的效果有明显的正向提升。 三维空间连贯性:Sora模型能够生成具有正确空间关系和动态相机运动的视频内容,确保视频中的物体在三维空间中保持连贯的运动。 图表1:Sora在镜头和人物变化下的连贯性和一致性是ScalingLaw下涌现出的能力 来源:Sora:TechnicalReport》、国金证券研究所 动态相机运动:模型能够模拟包含动态相机运动的视频,使得视频中的人物和场景元素能够随着相机的移动或旋转而相应地改变位置。 空间一致性:Sora确保视频中的物体在空间上保持一致性,即使在复杂的场景变换中也能保持正确的相对位置和运动轨迹。 长期连续性和物体持久性:Sora能够在视频中保持角色和物体的长期一致性,即使在视频中出现遮挡或离开画面的情况,也能保持其存在和外观。同时,它能够生成具有连贯故事线的视频,确保视频中的事件和动作在时间上是连续的。 任务场景丰富:除了视频生成以外,Sora还可以用于其他任务,如图生视频、文生图片、文+图生视频、视频拓展、视频编辑、连接两个不同视频等。 图表2:Sora适配任务场景非常丰富,覆盖了图像生成/编辑领域大多数任务 来源:《Sora:TechnicalReport》、数字未来实验室、国金证券研究所 二、视频生成模型的历史与现状 2.1文生视频是个年轻的方向,最早能追溯到15年的基于GAN生成模型 文生视频是个年轻的方向,面临着多方面的独特挑战。主要有1)计算成本高昂:确保帧间空间和时间一致性需要大量的计算资源,导致训练成本高昂;视频信息的复杂性进一步加剧了计算成本,需要更强大的计算能力来处理海量数据。2)视频信息复杂:视频数据形式多样,分辨率和比例各异,包含空间、时间、内容等多维信息;如何找到一种统一的表示形式,以有效地进行大规模训练,是文生视频技术需要解决的关键问题。3)缺乏高质量数据集:现有的文生视频多模态数据集数量有限,且标注程度不够,难以满足模型训练的需求。4)视频描述的模糊性:如何用文本准确描述视频内容,是文生视频技术面临的另一个难题,简短的文本提示难以完整描述视频,而复杂的描述又会增加模型的训练难度。 图表3:视频生成模型发展历史 来源:《Sora:AReviewonBackground》、国金证券研究所 2.2GAN和VAE时代 文生视频模型最早能追溯到2015年。早期研究主要使用基于GAN(生成对抗网络)和VAE (变分自编码器)的方法在给定文本描述的情况下自回归地生成视频帧(如Text2Filter及TGANs-C)。虽然这些工作为文生视频这一新计算机视觉任务奠定了基础,但它们的应用范围有限,仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。 图表4:最初的GAN文生视频模型在分辨率、上下文和长度方面极为有限 来源:《Text-to-Video:TheTask,ChallengesandtheCurrentState》、国金证券研究所 2.3TransformerBased 受文本(GPT-3)和图像(DALL-E)中大规模预训练Transformer模型的成功启发,文生视频研究的第二波浪潮采用了Transformer架构。Phenaki、Make-A-Vide、NUWA、VideoGPT和CogVideo都提出了基于Transformer的框架,而TATS提出了一种混合方法,从而将用于生成图像的VQGAN和用于顺序地生成帧的时间敏感Transformer模块结合起来。在第二波浪潮的诸多框架中,Phenaki尤其有意思,它能够根据一系列提示(即一个故事情节)生成任意长视频。同样,NUWA-Infinity提出了一种双重自回归(autoregressiveoverautoregressive)生成机制,可以基于文本输入合成无限长度的图像和视频,从而使得生成高清的长视频成为可能。 2.4DiffusionBased 第三波文生视频模型浪潮主要以基于扩散的架构为特征。扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功,这引起了人们对将扩散模型推广到其他领域 (如音频、3D,最近又拓展到了视频)的兴趣。这一波模型是由VideoDiffusionModels(VDM)开创的,它首次将扩散模型推广至视频领域。然后是MagicVideo提出了一个在低维隐空间中生成视频剪辑的框架,据其报告,新框架与VDM相比在效率上有巨大的提升。另一个值得一提的是Tune-a-Video,它使用单文本-视频对微调预训练的文生图模型,并允许在保留运动的同时改变视频内容。随后涌现出了越来越多的文生视频扩散模型,包括VideoLDM、Text2Video-Zero、RunwayGen1、RunwayGen2、StableVideoDiffusion以及NUWA-XL。 2.5视频生成模型的前沿:把卷积网络卷出了DiffusionModel 这些模型缺点比较明显,比如支持视觉数据的类别少、视频时间短、视频尺寸固定等。当时还在Meta实习、现任Sora项目的负责人之一的WilliamPeebles于23年3月发表的 《ScalableDiffusionModelswithTransformers》中的DiffusionTransformers(DiTs)对新的视频生成路线起到了关键的作用。DiT的主要工作是替换了StableDiffusion中的UNet为Transformer,证明了在