您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:Sora重磅发布,AI生成视频迎巨大创新 - 发现报告
当前位置:首页/行业研究/报告详情/

Sora重磅发布,AI生成视频迎巨大创新

电子设备2024-02-19王芳、杨旭、李雪峰中泰证券L***
Sora重磅发布,AI生成视频迎巨大创新

事件:北京时间2月16日凌晨,OpenAI发布旗下首个文生视频模型Sora。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,对语言有深刻理解,能够准确领会用户的提示。 OpenAI发布首个文生视频模型Sora。Sora是基于difussion扩散的transformer模型,凭借其强大的通用视觉数据处理,可以生成跨越不同持续时间、纵横比和分辨率的图像视频,最多可以连续生成60秒(一分钟)的高清视频。Sora是OpenAI在GPT-4及D ALL-E等语言和图像模型的基础上进一步的创新突破,该模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。此外,该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景,能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。 训练采样灵活,打破此前扩散模型局限性。Sora采用的是DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。Sora还能够为现有图片赋予动态效果或延伸视频内容的长度。Sora的灵感来自于语言模型,参照LLM的文本标记方法,Sora采用了视觉补丁方法,即把用于训练的图片、视频压缩为多个patch,把patch作为token进行训练,而非在图像域上进行训练,因此无需对视频的大小、时长进行限定、裁剪,训练端不会接受到残缺数据。 跨时代文生视频模型,有望推动硬件需求进一步提升。Sora基于图片做长视频生成,再基于生成视频做extend,其所需token数量相较于文本及图片模型的推理,有望成数量级增长,我们判断Sora将刺激推理算力需求将持续上升。此外,推理端token增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。 投资建议:建议关注AI大模型发展带来的产业链机遇 1)算力产业链:通富微电、工业富联、沪电股份、寒武纪、海光信息; 2)存储:香农芯创、兆易创新、东芯股份、普冉股份; 3)AI多模态:大华股份、海康威视; 4)先进封装:通富微电、长电科技、兴森科技、华海诚科、赛腾股份等。 风险提示:需求不及预期、产能瓶颈的束缚、大陆厂商技术进步不及预期、中美贸易摩擦加剧、研报使用的信息更新不及时。 一、Sora:突破性的文生视频模型 Sora是基于difussion扩散的transformer模型。Sora凭借其强大的通用视觉数据处理,可以生成跨越不同持续时间、纵横比和分辨率的图像视频,最多可以连续生成60秒(一分钟)的高清视频。Sora是OpenAI在GPT-4及DALL-E等语言和图像模型的基础上进一步的创新突破,该模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。此外,该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景,能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。 基于DALL·E 3和GPT,增强语言理解能力。Sora采用了两种方式来增强模型语言理解能力: 1)基于DALL·E 3训练captioner模型(给定图片/视频生成字幕),而后将该captioner模型用于为训练集中所有视频生成字幕; 2)基于GPT将用户提示转换为更详细的描述性字幕,而后发送给Sora。 基于以上两种方式打造的视频生成类AI大模型,能够显著增强应用中的文本保真度和视频整体质量。 图表1:Sora全新技术路径 Sora的灵感来自于语言模型,参照LLM的文本标记方法,Sora采用了视觉补丁方法,即把用于训练的图片、视频压缩为多个patch,把patch作为token进行训练,而非在图像域上进行训练。 训练采样灵活,推理取景全面。公司自行重新训练Visual encoder,能够从空间和时间两个维度对图片/视频进行压缩,此时不同的图片和视频在用于训练时的区别仅在于patch数量的多少,而无需对视频的大小、时长进行限定、裁剪,训练端不会接受到残缺数据。目前Sora可以对宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有视频进行采样,进而在推理端生成视频时,取景全面,不受尺寸限制,且最长支持1分钟视频生成。 图表2:主流技术训练生成视频取景(左)和Sora生成视频取景(右) Sora除了可以根据文本指令生成视频外,还可以把现有的静态图像转化成为视频,精巧细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧,可以向前向后双向延长视频。 图表3:Sora在不同训练资源支持下的生成效果展示 在文生视频+图生视频领域,Sora生成视频难度降低,同时能够提供更为真实的画面。提供给Sora一张图片和对图片的描述,Sora就能够根据对文字和图片的理解进行相应视频创作。我们认为,由于transformer学习架构的应用,帧和帧之间一致性增强,图生视频的难度大大降低,解决了此前许多模型面临的帧和帧之间连贯性差的痛点;同时相比于所提供的图片而言,生成的视频在画面的真实感上也有了一定改善。 图表4:原图片(左)和生成视频(右) 在图生视频领域,Sora实现了良好的可拓展性。Sora可以在给定图片的基础上,向前/向后扩展生成视频,生成的视频结尾/开头不同,但开头/结尾一致。将向前和向后扩展结合起来,该方法还可以应用于实现无缝的无限循环视频,展现了良好的可拓展性。应用时如给定缆车最终地点图片,即可生成不同场景下的缆车行进路线视频,直至最后一帧抵达给定图片中缆车最终地点。 图表5:向后扩展(上)和原视频(下) 在视频到视频领域,Sora可对视频进行编辑和转换。 1)视频场景编辑:基于扩散模型,可实现多种场景转换途经,以SDEdit to Sora途经为例,给定轿车驾驶视频视频,先加噪后去噪,可零镜头切换行驶环境到茂密的丛林中; 2)视频无缝衔接:给定两个视频,通过在视频中间逐渐插值,Sora可以实现无缝过渡,在场景变换的同时实现画面主体形态变化。 图表6:原视频(左)和转换环境(右) 在各领域应用中,Sora呈现出良好的3D一致性、远距离相干性和物体持久性、互动性、人工过程模拟性: 1)3D一致性:随着摄像机移动和旋转,人物和场景元素在三维空间中始终如一地移动; 2)远距离相干性和物体持久性:通常情况下,即使某物体被暂时遮挡/离开框架,多帧后仍能存在; 3)互动性:有时可以理解现实世界物理知识,进而模拟现实世界动作,如人吃汉堡后汉堡上出现相应咬痕; 4)人工过程模拟性:模拟人工过程,如在视频游戏中操控玩家行为。 图表7:画笔下真实笔迹(左)和汉堡上的咬痕(右) Sora基于DiT(Diffusion Transformers)模型构建。DiT模型是一个结合了Transformer的扩散模型:DiT = [变分自编码器(VAE)编码器+视觉变换器(ViT)+去噪扩散概率模型(DDPM)+ VAE解码器]。 根据William Peebles以及Saining Xie在论文中实验结论可知,当我们将DiTs沿“模型大小”和“输入tokens数量”两个轴进行配置实验,Gflop最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小为2,当训练时间足够长时,DiT-XL/2就是里面的最佳模型。 图表8:DiTs(Diffusion Transformers)模型对比 显存带宽需求提升,推理算力有望逐步增长。Sora采用了改良的DiT架构,算力消耗和DiT相仿,DiTs遵循Vision Transformers (ViTs)的设计原则,与传统的卷积网络(ResNet等)相比,它能提供更强的灵活性。 根据DiT架构论文原作者判断,Sora的参数量大约在30亿左右(3倍DiT-XL模型的大小),因此更有利于Sora后续的灵活迭代。 从推理端看,Sora基于图片做长视频生成,再基于生成视频做extend,其所需token数量相较于文本及图片模型的推理,有望成数量级增长,我们判断对推理算力需求将持续上升。此外,推理端token增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。 图表9:DiTs四种不同模型深度和宽度的配置实验 Sora有望在多行业实现简单商用。360 CEO周鸿祎表示,Sora将AGI实现从10年缩短到1年。整体而言,根据Sora目前展现出的功能,辅之以其支持的1分钟视频生成和2048*2048的最大分辨率,使其在广告、游戏、电影预告等领域实现广泛应用成为可能,在降本增效的同时颠覆部分现有产品: 1)新闻业:Sora有可能革新新闻报道的方式。当突发新闻事件发生时,记者只需快速编写描述性文本,借助Sora模型便能立即生成对应的实时视频。这种创新的方法显著提高了新闻制作与发布的效率,使得新闻报道更加迅速和及时; 2)广告业:企业可以利用Sora在极短的时间内,根据产品特性和品牌故事快速生成多个版本的宣传视频。这种创新的方式不仅提高了市场营销的效率,而且显著降低了制作成本; 3)XR:Sora作为AI视频生成大模型,能产出逼真的3D模型和动画,为XR应用提供丰富且高质量的内容资源,满足用户对虚拟世界的高标准要求。此外Sora支持实时渲染,允许用户与虚拟环境实时互动,增强沉浸感,提升用户参与度,为XR应用带来更自然的交互体验。 我们认为,目前Sora的阶段相当于GPT-3的阶段,是一个不完美的模型,但参考GPT-3到GPT-4实现的跨越,随着Sora后续功能的进一步完善、作为辅助的GPT和DALL·E系列进一步迭代,Sora有望在toB侧较快实现商用化。 二、投资建议 建议关注AI大模型发展带来的产业链机遇 1)算力产业链:通富微电、工业富联、沪电股份、寒武纪、海光信息; 2)存储:香农芯创、兆易创新、东芯股份、普冉股份; 3)AI多模态:大华股份、海康威视; 4)先进封装:通富微电、长电科技、兴森科技、华海诚科、赛腾股份等。 三、风险提示 需求不及预期:存在下游应用发展较慢,对算力等需求不及预期的风险产能瓶颈的束缚:存在算力芯片产能受限的风险 大陆厂商技术进步不及预期:国内大厂大模型迭代不及预期的风险 中美贸易摩擦加剧:若中美贸易摩擦加剧,存在国内无法获取前沿技术的风险 研报使用的信息更新不及时:研报引用的数据存在更新不及时的风险