行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Sora重磅发布，AI生成视频迎巨大创新

电子设备 2024-02-18 王芳,杨旭,李雪峰中泰证券 Leona

OpenAI发布首个文生视频模型Sora：技术亮点与投资机会

技术亮点

创新突破：Sora是OpenAI推出的首个文生视频模型，基于diffusion扩散的transformer模型，具备强大的通用视觉数据处理能力。
多维度生成：能够生成跨越不同持续时间、纵横比和分辨率的图像视频，最长支持60秒高清视频生成。
精细场景构建：生成包含多个角色、特定运动和细节丰富的场景，能创造多个镜头，确保角色和视觉风格的一致性。
语言理解深度：通过DALL·E 3和GPT的集成，增强语言理解能力，提升文本保真度和视频整体质量。
视觉补丁方法：采用视觉补丁方法，高效处理图片、视频训练，不受大小、时长限制。
动态效果与延展性：不仅能生成视频，还能为静态图像添加动态效果，扩展或补全视频内容。
真实感与交互性：生成的视频在画面真实感和物理知识模拟上有所提升，具有互动性。

投资建议

算力产业链：关注通富微电、工业富联、沪电股份、寒武纪、海光信息等企业，这些公司在提供高性能计算设备和服务方面具有优势。
存储产业：推荐香农芯创、兆易创新、东芯股份、普冉股份，专注于存储解决方案和技术升级。
AI多模态应用：大华股份、海康威视等公司因在AI多模态应用方面拥有领先技术而值得关注。
先进封装：通富微电、长电科技、兴森科技、华海诚科、赛腾股份等，聚焦于封装技术的创新与优化。

风险提示

需求不及预期：下游应用领域的发展速度可能低于预期，影响对算力、存储等资源的需求。
产能瓶颈：算力芯片生产可能面临限制，影响供应能力。
技术进步滞后：国内大模型技术迭代速度可能跟不上国际前沿，存在技术落差。
国际贸易风险：中美贸易摩擦可能影响国内获取前沿技术的能力，限制产业发展。
信息更新不及时：研报引用的数据可能存在时效性问题，需持续关注市场动态和最新研究成果。

事件：北京时间2月16日凌晨，OpenAI发布旗下首个文生视频模型Sora。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色，对语言有深刻理解，能够准确领会用户的提示。 OpenAI发布首个文生视频模型Sora。Sora是基于difussion扩散的transformer模型，凭借其强大的通用视觉数据处理，可以生成跨越不同持续时间、纵横比和分辨率的图像视频，最多可以连续生成60秒（一分钟）的高清视频。Sora是OpenAI在GPT-4及D ALL-E等语言和图像模型的基础上进一步的创新突破，该模型能够从类似于静态噪音的视频开始，逐渐去除噪音生成视频。此外，该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景，能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确一致。训练采样灵活，打破此前扩散模型局限性。Sora采用的是DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。Sora还能够为现有图片赋予动态效果或延伸视频内容的长度。Sora的灵感来自于语言模型，参照LLM的文本标记方法，Sora采用了视觉补丁方法，即把用于训练的图片、视频压缩为多个patch，把patch作为token进行训练，而非在图像域上进行训练，因此无需对视频的大小、时长进行限定、裁剪，训练端不会接受到残缺数据。跨时代文生视频模型，有望推动硬件需求进一步提升。Sora基于图片做长视频生成，再基于生成视频做extend，其所需token数量相较于文本及图片模型的推理，有望成数量级增长，我们判断Sora将刺激推理算力需求将持续上升。此外，推理端token增加、算力需求的增长，也对显存及带宽提出更高要求，预计将拉升400G光通信技术在以太网中的应用，并有望推动800G乃至1.6T光通信技术的应用。投资建议：建议关注AI大模型发展带来的产业链机遇 1）算力产业链：通富微电、工业富联、沪电股份、寒武纪、海光信息； 2）存储：香农芯创、兆易创新、东芯股份、普冉股份； 3）AI多模态：大华股份、海康威视； 4）先进封装：通富微电、长电科技、兴森科技、华海诚科、赛腾股份等。风险提示：需求不及预期、产能瓶颈的束缚、大陆厂商技术进步不及预期、中美贸易摩擦加剧、研报使用的信息更新不及时。一、Sora：突破性的文生视频模型 Sora是基于difussion扩散的transformer模型。Sora凭借其强大的通用视觉数据处理，可以生成跨越不同持续时间、纵横比和分辨率的图像视频，最多可以连续生成60秒（一分钟）的高清视频。Sora是OpenAI在GPT-4及DALL-E等语言和图像模型的基础上进一步的创新突破，该模型能够从类似于静态噪音的视频开始，逐渐去除噪音生成视频。此外，该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景，能在单个生成的视频中创建多个镜头，使角色和视觉风格保持准确一致。基于DALL·E 3和GPT，增强语言理解能力。Sora采用了两种方式来增强模型语言理解能力： 1）基于DALL·E 3训练captioner模型（给定图片/视频生成字幕），而后将该captioner模型用于为训练集中所有视频生成字幕； 2）基于GPT将用户提示转换为更详细的描述性字幕，而后发送给Sora。基于以上两种方式打造的视频生成类AI大模型，能够显著增强应用中的文本保真度和视频整体质量。图表1：Sora全新技术路径 Sora的灵感来自于语言模型，参照LLM的文本标记方法，Sora采用了视觉补丁方法，即把用于训练的图片、视频压缩为多个patch，把patch作为token进行训练，而非在图像域上进行训练。训练采样灵活，推理取景全面。公司自行重新训练Visual encoder，能够从空间和时间两个维度对图片/视频进行压缩，此时不同的图片和视频在用于训练时的区别仅在于patch数量的多少，而无需对视频的大小、时长进行限定、裁剪，训练端不会接受到残缺数据。目前Sora可以对宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有视频进行采样，进而在推理端生成视频时，取景全面，不受尺寸限制，且最长支持1分钟视频生成。图表2：主流技术训练生成视频取景（左）和Sora生成视频取景（右） Sora除了可以根据文本指令生成视频外，还可以把现有的静态图像转化成为视频，精巧细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧，可以向前向后双向延长视频。图表3：Sora在不同训练资源支持下的生成效果展示在文生视频+图生视频领域，Sora生成视频难度降低，同时能够提供更为真实的画面。提供给Sora一张图片和对图片的描述，Sora就能够根据对文字和图片的理解进行相应视频创作。我们认为，由于transformer学习架构的应用，帧和帧之间一致性增强，图生视频的难度大大降低，解决了此前许多模型面临的帧和帧之间连贯性差的痛点；同时相比于所提供的图片而言，生成的视频在画面的真实感上也有了一定改善。图表4：原图片（左）和生成视频（右）在图生视频领域，Sora实现了良好的可拓展性。Sora可以在给定图片的基础上，向前/向后扩展生成视频，生成的视频结尾/开头不同，但开头/结尾一致。将向前和向后扩展结合起来，该方法还可以应用于实现无缝的无限循环视频，展现了良好的可拓展性。应用时如给定缆车最终地点图片，即可生成不同场景下的缆车行进路线视频，直至最后一帧抵达给定图片中缆车最终地点。图表5：向后扩展（上）和原视频（下）在视频到视频领域，Sora可对视频进行编辑和转换。 1）视频场景编辑：基于扩散模型，可实现多种场景转换途经，以SDEdit to Sora途经为例，给定轿车驾驶视频视频，先加噪后去噪，可零镜头切换行驶环境到茂密的丛林中； 2）视频无缝衔接：给定两个视频，通过在视频中间逐渐插值，Sora可以实现无缝过渡，在场景变换的同时实现画面主体形态变化。图表6：原视频（左）和转换环境（右）在各领域应用中，Sora呈现出良好的3D一致性、远距离相干性和物体持久性、互动性、人工过程模拟性： 1）3D一致性：随着摄像机移动和旋转，人物和场景元素在三维空间中始终如一地移动； 2）远距离相干性和物体持久性：通常情况下，即使某物体被暂时遮挡/离开框架，多帧后仍能存在； 3）互动性：有时可以理解现实世界物理知识，进而模拟现实世界动作，如人吃汉堡后汉堡上出现相应咬痕； 4）人工过程模拟性：模拟人工过程，如在视频游戏中操控玩家行为。图表7：画笔下真实笔迹（左）和汉堡上的咬痕（右） Sora基于DiT（Diffusion Transformers）模型构建。DiT模型是一个结合了Transformer的扩散模型：DiT = [变分自编码器（VAE）编码器+视觉变换器（ViT）+去噪扩散概率模型（DDPM）+ VAE解码器]。根据William Peebles以及Saining Xie在论文中实验结论可知，当我们将DiTs沿“模型大小”和“输入tokens数量”两个轴进行配置实验，Gflop最高的模型是DiT-XL/2，它使用最大的XL配置，patch大小为2，当训练时间足够长时，DiT-XL/2就是里面的最佳模型。图表8：DiTs（Diffusion Transformers）模型对比显存带宽需求提升，推理算力有望逐步增长。Sora采用了改良的DiT架构，算力消耗和DiT相仿，DiTs遵循Vision Transformers (ViTs)的设计原则，与传统的卷积网络（ResNet等）相比，它能提供更强的灵活性。根据DiT架构论文原作者判断，Sora的参数量大约在30亿左右（3倍DiT-XL模型的大小），因此更有利于Sora后续的灵活迭代。从推理端看，Sora基于图片做长视频生成，再基于生成视频做extend，其所需token数量相较于文本及图片模型的推理，有望成数量级增长，我们判断对推理算力需求将持续上升。此外，推理端token增加、算力需求的增长，也对显存及带宽提出更高要求，预计将拉升400G光通信技术在以太网中的应用，并有望推动800G乃至1.6T光通信技术的应用。图表9：DiTs四种不同模型深度和宽度的配置实验 Sora有望在多行业实现简单商用。360 CEO周鸿祎表示，Sora将AGI实现从10年缩短到1年。整体而言，根据Sora目前展现出的功能，辅之以其支持的1分钟视频生成和2048*2048的最大分辨率，使其在广告、游戏、电影预告等领域实现广泛应用成为可能，在降本增效的同时颠覆部分现有产品： 1）新闻业：Sora有可能革新新闻报道的方式。当突发新闻事件发生时，记者只需快速编写描述性文本，借助Sora模型便能立即生成对应的实时视频。这种创新的方法显著提高了新闻制作与发布的效率，使得新闻报道更加迅速和及时； 2）广告业：企业可以利用Sora在极短的时间内，根据产品特性和品牌故事快速生成多个版本的宣传视频。这种创新的方式不仅提高了市场营销的效率，而且显著降低了制作成本； 3）XR：Sora作为AI视频生成大模型，能产出逼真的3D模型和动画，为XR应用提供丰富且高质量的内容资源，满足用户对虚拟世界的高标准要求。此外Sora支持实时渲染，允许用户与虚拟环境实时互动，增强沉浸感，提升用户参与度，为XR应用带来更自然的交互体验。我们认为，目前Sora的阶段相当于GPT-3的阶段，是一个不完美的模型，但参考GPT-3到GPT-4实现的跨越，随着Sora后续功能的进一步完善、作为辅助的GPT和DALL·E系列进一步迭代，Sora有望在toB侧较快实现商用化。二、投资建议建议关注AI大模型发展带来的产业链机遇 1）算力产业链：通富微电、工业富联、沪电股份、寒武纪、海光信息； 2）存储：香农芯创、兆易创新、东芯股份、普冉股份； 3）AI多模态：大华股份、海康威视； 4）先进封装：通富微电、长电科技、兴森科技、华海诚科、赛腾股份等。三、风险提示需求不及预期：存在下游应用发展较慢，对算力等需求不及预期的风险产能瓶颈的束缚：存在算力芯片产能受限的风险大陆厂商技术进步不及预期：国内大厂大模型迭代不及预期的风险中美贸易摩擦加剧：若中美贸易摩擦加剧，存在国内无法获取前沿技术的风险研报使用的信息更新不及时:研报引用的数据存在更新不及时的风险

点击免费查看完整报告

Sora重磅发布，AI生成视频迎巨大创新

OpenAI发布首个文生视频模型Sora：技术亮点与投资机会

技术亮点

投资建议

风险提示

你可能感兴趣

【中泰研究丨晨会聚焦】电子王芳：Sora重磅发布，AI生成视频迎巨大创新

互联网传媒行业周报：OpenAI发布文生成视频大模型，Sora引领AI视频创新

国君电子王聪团队【OpenAI发布扩展视频生成模型Sora，AI算力基建加速】

【风口研报·行业】OpenAl正式发布视频生成模型Sora，分析师多角度看Sora颠覆之处，并看好这几家深耕虚拟现实产业的公司或将受益;OpenAI计划筹集数万亿美金扩张GPU等AI算力基建

计算机：OpenAI发布Sora，AI生成视频的里程碑

传媒行业分析报告：OpenAI发布Sora，AI视频技术巨大突破

电子行业周报2024/2/5-2023/2/18：OpenAI重磅发布文生视频AI大模型Sora，持续关注AI产业链

传媒行业周观察：OpenAI发布Sora2和Sora APP，AI视频模型迎里程碑进展；看好AI应用方向

传媒行业点评报告：AGI里程碑：OPENAI发布视频生成模型SORA，多模态有望加速

TMT行业月报：视频生成模型Sora发布再度引爆人工智能市场；现象级游戏《幻兽帕鲁》或将改变游戏制作模式

Sora重磅发布，AI生成视频迎巨大创新

你可能感兴趣

【中泰研究丨晨会聚焦】电子王芳：Sora重磅发布，AI生成视频迎巨大创新

互联网传媒行业周报：OpenAI发布文生成视频大模型，Sora引领AI视频创新

国君电子 王聪团队【OpenAI发布扩展视频生成模型Sora，AI算力基建加速】

【风口研报·行业】OpenAl正式发布视频生成模型Sora，分析师多角度看Sora颠覆之处，并看好这几家深耕虚拟现实产业的公司或将受益;OpenAI计划筹集数万亿美金扩张GPU等AI算力基建

计算机：OpenAI发布Sora，AI生成视频的里程碑

传媒行业分析报告：OpenAI发布Sora，AI视频技术巨大突破

电子行业周报2024/2/5-2023/2/18：OpenAI重磅发布文生视频AI大模型Sora，持续关注AI产业链

传媒行业周观察：OpenAI发布Sora2和Sora APP，AI视频模型迎里程碑进展；看好AI应用方向

传媒行业点评报告：AGI里程碑：OPENAI发布视频生成模型SORA，多模态有望加速

TMT行业月报：视频生成模型Sora发布再度引爆人工智能市场；现象级游戏《幻兽帕鲁》或将改变游戏制作模式

国君电子王聪团队【OpenAI发布扩展视频生成模型Sora，AI算力基建加速】