电子行业点评:Sora模型横空出世, AIGC行业又一里程碑 电子 评级:看好 日期:2024.02.20 证券研究报告|行业点评 事件描述 2月16日凌晨,OpenAI发布了文生视频AI模型Sora,可以根据文本提示 (prompt)、静态图像或视频直接生成或扩展视频,视频时长可达1分钟。 事件点评 OpenAI发布了具有里程碑意义的文生视频AI模型Sora。Sora能够生成具有多个角色、特定类型的主题和运动,具备准确且高清的细节特征的复杂场 景。该模型不仅满足用户在prompt中要求的内容,还了解这些东西在物理世界或数字世界中的存在方式。此外,Sora还可以在单个视频中创建多个镜头,且准确保留角色和视觉风格的一致性和连贯性。当前OpenAI尚未向公众开放,仅向数量有限的红队成员以及艺术家、制作人开放权限。 Sora亮点1:首次提出统一各类视觉数据的——patch,打通了扩散模型和大模型之间的桥梁。为了对齐不同时长、分辨率和纵横比的视觉数据,Sora 分析师王少南 登记编码:S0950521040001:0755-23375522 :wangshaonan@wkzq.com.cn 联系人金凯笛:021-61102509 :jinkaidi@wkzq.com.cn 行业表现2024/2/19 11% 2% -7% -16% -24% -33% 2023/22023/52023/82023/11 电子上证综指 深证成指沪深300 在训练时先将大量不统一的视频和图像编码为较小的数据单元集合patches, 使得Sora可以使用更加广泛的视觉数据来训练扩散模型。Patch的出现打通了扩散模型与transformer架构下大模型之间的桥梁,使得Sora能够在DALL·E和GPT模型技术基础上,生成高质量的视频。且OpenAI官方技术报告显示,训练计算量越大,样本质量的提升越显著。 Sora亮点2:“涌现”出新的模拟功能,视频长度、镜头切换效果与画面流畅度大幅提升,“世界模型”雏形初显。受益于扩散模型的生成和transformer 注意力机制下的推理能力,Sora在训练过程中“涌现”了许多新型的模拟功能,而非得益于对3D、物体等属性的归纳偏置(inducitivebias):1)3D一致性;2)远距离相干性和物体持久性;3)模拟物理世界的交互性;4)模拟数字世界。得益于涌现出的创新功能和领先技术,有别于传统AI视频生成工具,OpenAI的Sora模型能够实现场景和物象的多视角、逻辑合理、内容连贯且稳定的高清镜头切换,在生成视频的时长(60s)上也遥遥领先。 Sora的推出给文生视频产业明确发展路径:更丰富的下游应用、更高的算力需求与安全需要。我们认为,在软件领域,Sora的推出将进一步加深和拓宽 OpenAI的护城河;在底层算法和模型方面,少数巨头将占据主导地位;下游第三方应用与生态将不断丰富。在硬件领域,一方面,Sora模型本身需要更丰富的数据和更强的算力来优化其性能,另一方面,丰富的第三方应用生态和更多的视频创作者也带来了更高的算力需求。因此,我们看好相关AI文生视频,AI算力芯片,光模块等产业,以及给AIPC等端侧硬件带来的新机遇。此外,目前推出的Sora模型仍存在弱点,且安全性问题尚未推出完整的解决方案,因此,AIGC视频在中短期内将主要扮演“辅助者”的角色,未来对于模型的安全性问题以及相关规则制度的建立将势在必行。 资料来源:Wind,聚源 相关研究 《电子行业半月报:苹果VisionPro正式发售,开启空间计算时代新篇章》(2024/2/5) 《华为发布会点评:鸿蒙千帆起,生态万舸行》(2024/1/21) 《电子行业半月报:CES2024回顾,AI产品线百花齐放》(2024/1/16) 《电子行业半月报:华为/小米新品发布,全 场景智能再深化》(2024/1/2) 《电子行业半月报:英特尔发布酷睿Ultra处理器,AIPC加速AI端侧布局》(2023/12/19) 《半导体封装行业深度:先进封装引领未来,上游设备材料持续受益》(2023/12/13) 《电子行业半月报:英伟达发布新一代H200GPU,算力需求刺激半导体行业回暖》(2023/12/5) 《电子行业周报:OpenAI举办首届开发者大会,GPT-4Turbo与GPTStore等相继发布》(2023/11/14) 《电子行业点评:消费电子及半导体复苏迹象显现,行业景气度有望回升》(2023/11/12) 《电子行业周报:苹果发布23FQ4财报,同比下滑趋势有所收窄》(2023/11/7) 风险提示:1、宏观经济恢复不及预期,下游行业需求不及预期;2、贸易摩擦加剧,供应链进一步受限的风险; 3、技术研发和迭代、产品推进不及预期,存在国产替代不及预期的风险;4、行业竞争加剧,使得部分企业盈利能力下滑的风险。 Sora模型横空出世,AIGC行业又一里程碑 2月16日凌晨,OpenAI发布了文生视频AI模型Sora,可以根据文本提示(prompt)、静态图像或视频直接生成或扩展视频。目前,Sora可生成的高保真视频时长可达1分钟。当前OpenAI尚未向公众开放,仅向红队成员(受雇寻找问题的个人,他们将评估与模型发布相关的潜在风险)以及数量有限的视觉艺术家、设计师和电影制作人(以获取有关如何解决问题的反馈)授予访问权限。 Sora能够生成具有多个角色、特定类型的主题和运动,具备准确且高清的细节特征的复杂场景。该模型不仅满足用户在prompt中要求的内容,还了解这些东西在物理世界或数字世界中的存在方式。此外,Sora还可以在单个视频中创建多个镜头,且准确保留角色和视觉风格的一致性和连贯性。 亮点1:Sora首次提出统一各类视觉数据的patch,打通了扩散模型和大模型之间的桥梁 为了对齐不同时长、分辨率和纵横比的视觉数据,Sora在训练时先将大量不统一的视频和图像编码为较小的数据单元集合patches,每个patch都类似于GPT中的一个token,通过统一的数据表示方式,使得Sora可以使用更加广泛的视觉数据来训练扩散模型。 图表1:Sora统一视觉数据:将大量不同规格的视频和图像编码为patches 资料来源:OpenAI,五矿证券研究所 为了将不同规格的视觉数据压缩为patch,Sora团队训练了一个用于降低视觉数据维度的网络(videocompressionnetwork)。视频压缩网络能够将原始视频作为输入,并输出在时间和空间上被压缩的潜在表示。Sora在这个压缩的潜空间(latentspace)中对patch和被压缩的时间和空间特征进行训练,并生成视频。团队还训练了相应的解码器模型,将潜在数组 (latents)映射回像素空间。 Sora使用transformer架构,在DALL·E和GPT模型对文本理解技术的基础上来生成高质量的视频。Sora使用DALL·E3中的重述技术(re-captioningtechnique),来为视觉训练数据生成高度描述性的说明(caption);Sora还利用GPT将简短的prompt转换为更加详细的captions,使得Sora能够生成与prompt更匹配的高质量视频。扩散模型和transformer的结合使得视频生成质量随着训练计算的增加而显著提高。Sora团队发现,在固定种子和输入的前提下,训练计算量越大,样本质量的提升越显著。 图表2:Sora对文本语言的理解 资料来源:OpenAI,五矿证券研究所 图表3:训练计算量的增加可以显著提升视频样本生成的质量 资料来源:OpenAI,五矿证券研究所 亮点2:Sora“涌现”出新的模拟功能,视频长度、镜头切换效果与画面流畅度大幅提升,“世界模型”雏形初显 受益于扩散模型的生成和transformer注意力机制下的推理能力,Sora在训练过程中“涌现”了许多新型的模拟功能,而非得益于对3D、物体等属性的归纳偏置(inducitivebias)。1)3D一致性:Sora能够生成运动相机拍摄的视频,即伴随相机(视角)的变换,人物和场景可以在三维空间中保持相应的、一致连贯的运动。2)远距离相干性和物体持久性。Sora通常能够有效地对短期和长期依赖关系进行建模,即模型可以在整个视频中长期保留人、动物和物体,即使它们被遮挡或离开框架,且可以在单个样本视频中生成同一角色的多个镜头。3)模拟物理世界的交互性:Sora有时可以以简单的方式模拟影响物理世界状态的动作,例如画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。4)模拟数字世界:Sora团队以《我的世界》为例,表示Sora可以通过基本策略控制Minecraft中的玩家,同时渲染《我的世界》中的数字场景及其动态;并表示玩家只需要在Sora的prompt中提及“Minecraft”,就能零距离激发这些功能。 得益于涌现出的创新功能和领先技术,有别于传统AI视频生成工具,OpenAI的Sora模型能够实现场景和物象的多视角、逻辑合理、内容连贯且稳定的高清镜头切换,在生成视频的时长(60s)上也遥遥领先。在过去一年中,许多文生视频模型和AI工具纷至沓来,但是普遍存在生成视频的时长短暂、不流畅、视角和场景内容单一等问题。截至2024年2月19日,根据官网信息,2023年Runway推出的Gen-2模型的默认生成时长为4s,最多可扩展为16s;2023年11月Pika推出的Pika1.0模型默认生成时长为3s,最多可扩展成15s。 模型名称推出时间团队视频时长视频帧率定价(按年计费模式) 图表4:海外部分已发布的文生视频模型(截至2024年2月19日) VideoLDM2023年4月4.7s24FPS_ Gen-22023年6月4~16s_ Pika1.02023年11月3~15s8~24FPS StableVedio 2023年11月2~5s3~30FPS Diffusion 初始账号提供125积分(125积分=25个Gen-2生成)标准会员:$12/月(625积分/月,每个工作区5个用户) Pro会员:$28/月(2250积分/月,每个工作区10个用户)无限会员:$76/月(无限,每个工作区10个用户) 免费账号:每日提供不能结转的30积分(10个积分相当于闪电生成速度下的一个3秒视频) 标准会员:$8/月(700积分/月+每日不能结转的30积分)无限会员:$28/月(2000积分/月+每日不能结转的30积分) 专业会员:$58/月(无限积分)全部账号均可使用全套核心模型免费会员:非商业用途 专业会员:$20/月企业会员:定制价格 API的调用需要积分,用完初始25个免费积分后,需要购买,10美元=1000积分=50个StableVedios EmuVedio2023年11月4s4~16FPS_ W.A.L.T2023年12月 李飞飞的斯坦福团 3s8FPS_ 队与谷歌合作开发 Sora2024年2月60s__ 资料来源:各公司官网,五矿证券研究所 Sora的推出给文生视频产业明确发展路径:更丰富的下游应用、更高的算力需求与安全需要 在软件领域,我们认为,Sora模型独树一帜的表现是OpenAI在AIGC领域“护城河”再次拓宽和加深的表现。在算法方面,根据OpenAI官方技术报告,Sora模型建立在OpenAI的GPT模型和DALE模型技术之上。在数据方面,由于Sora实现了对不同规格视觉数据的压缩、编码和解码,丰富了视觉数据的来源,因此,OpenAI与微软的密切合作使得其在训练数据方面也具有领先优势。所以,我们认为,在底层算法和模型方面,头部企业的壁垒将进一步加强,各类大模型在经历大浪淘沙后,由少数巨头获得垄断性优势。而下游第三方应用与生态将不断丰富,例如本次Sora模型的推出将给短视频制作、游戏开发、广告设计、影视娱乐等领域带来了新的机遇和挑战。 在硬件领域,我们认为,Sora模型将