您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:计算机行业点评:Sora惊艳发布,文生视频跨越式突破 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业点评:Sora惊艳发布,文生视频跨越式突破

信息技术2024-02-17国盛证券匡***
AI智能总结
查看更多
计算机行业点评:Sora惊艳发布,文生视频跨越式突破

计算机 Sora惊艳发布,文生视频跨越式突破 OpenAI发布Sora模型,1分钟文生视频效果惊艳。2月15日, OpenAI发布文生视频模型Sora,展示出许多亮点:1)视频生成长度可 达1分钟,远超其他文生视频模型。2)3D空间的一致性,Sora可以生成具有动态镜头运动的视频,随着摄像机的移动和旋转,人物和场景元素在三维空间中保持连贯运动。3)长期连续性和物体持久性。可以在单 证券研究报告|行业点评 2024年02月17日 增持(维持) 行业走势 个视频中生成同一物体的多个镜头,一个主题即使暂时离开视野也能保计算机沪深300 持不变。4)能够向前后扩展视频,以及连接两个视频。5)模拟数字世界,Sora能够模拟人工操作,例如控制Minecraft游戏中的玩家。我们认为Sora相比此前其他文生视频模型,已经跨越到实用生产力工具,1分钟长度有望大规模应用在短视频领域,扩展视频的能力也有望制作长视频,或将带来新一轮内容创作产业革命。 AIGC应用空间广阔,算力需求或呈量级提升。Sora是一种扩散模型,与GPT模型类似,Sora使用transformer架构,将视频和图像表示 为称为Patch的较小数据单元的集合,类似于GPT中的token。Sora建立在OpenAI在DallE和GPT模型的基础上。目前Sora暂未对外开放使用,仅OpenAICEOSamAltman在X平台上与评论互动生成视频,我们认为算力的限制可能是目前Sora暂未开放使用的重要因素。随着AIGC技术在影视剧集、宣传视频、自媒体、游戏等领域逐步渗透,视频创作效率或迎来显著提升,同时视频相对于文字、图像的交互数据量级将有巨大提升,或对应算力需求的高速扩张。 谷歌发布Gemini1.5Pro,上下文长度达百万token。2月15日,谷歌推出Gemini1.5Pro,支持长达100万个token,远超当前其他基础模型,可以一次性处理大量信息,如1小时的视频、11小时的音频、超过 3万行代码或超过70万个单词。Gemini1.5Pro是一个中型大小的多模态模型,相同基准测试下其性能与此前谷歌最大的Gemini-1.0Ultra相似,即使上下文窗口增加,Gemini1.5Pro也能保持高水平的性能。我们认为,谷歌Gemini1.5的推出进一步促进了大模型技术的良性竞争,产业发展趋势欣欣向荣。 投资建议: 算力侧:中科曙光、浪潮信息、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 映射应用:万兴科技、紫天科技、虹软科技、大华股份、海康威视。风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 32% 16% 0% -16% -32% -48% 2023-022023-062023-102024-02 作者 分析师刘高畅 执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 相关研究 1、《计算机:2024年度策略:大赛道alpha时间》 2024-02-11 2、《计算机:从美股财报看AI产业趋势》2024-02-04 3、《计算机:华为智车持续验证》2024-02-03 请仔细阅读本报告末页声明 内容目录 OpenAI发布Sora模型,1分钟文生视频效果惊艳3 AIGC应用空间广阔,算力需求或呈量级提升5 谷歌推出Gemini1.5Pro,上下文长度达百万token7 投资建议8 风险提示9 图表目录 图表1:Sora生成动态镜头视频演示3 图表2:Sora连接视频演示,中间的视频是左右两侧视频的插值3 图表3:Sora可以控制Minecraft游戏玩家4 图表4:Sora的输入将视频表示为patch5 图表5:SamAltman在X平台选取评论使用Sora生成视频6 图表6:Gemini1.5pro的上下文长度领先于其他基础模型7 图表7:Gemini1.5pro演示可以理解、推理和识别402页的文档中的细节7 图表8:Gemini1.5pro演示可以分析电影中的情节8 OpenAI发布Sora模型,1分钟文生视频效果惊艳 2月15日,OpenAI发布Sora模型,作为OpenAI首款文生视频模型,Sora展示出许多亮点: 视频生成长度可达1分钟,远超其他文生视频模型。作为对比,目前视频生成领 域热门的runwaygen2模型最长可生成18秒的视频,pika1.0最长可生成15秒的 视频。 3D空间的一致性。Sora可以生成具有动态镜头运动的视频,随着摄像机的移动和旋转,人物和场景元素在三维空间中保持连贯的运动。 图表1:Sora生成动态镜头视频演示 资料来源:OpenAI官网,国盛证券研究所 长期连续性和物体持久性。Sora通常能够有效地对短期和长期依赖关系进行建模。例如可以保留人、动物和物体,即使它们被遮挡或离开镜头。并且可以在单个样本中生成同一角色的多个镜头,在整个视频中保持外观。OpenAI官网称Sora解决 了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。 Sora能够向前或向后扩展视频,以及连接视频,可以使用Sora在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。我们认为视频扩展和连接的能力有望用于长视频制作。 图表2:Sora连接视频演示,中间的视频是左右两侧视频的插值 资料来源:OpenAI官网,国盛证券研究所 模拟数字世界。Sora能够模拟人工过程,例如视频游戏。Sora可以同时通过基本策略控制Minecraft游戏中的玩家,同时还可以高保真地渲染世界及其动态。 图表3:Sora可以控制Minecraft游戏玩家 资料来源:OpenAI官网,国盛证券研究所 据OpenAI官网文档,目前Sora模型还有一些局限性:它可能难以准确模拟复杂场景的物理特性,并且可能无法理解具体因果关系,例如一个人咬一口饼干但饼干可能没有 咬痕。Sora模型还可能混淆提示的空间细节,例如左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。 我们认为Sora相比此前其他文生视频模型,已经从科技探索跨越到实用生产力工具,60秒的视频长度有望大规模应用在短视频领域,且其扩展视频的能力也有望应用于长视频制作,或将带来新一轮内容创作产业革命。 AIGC应用空间广阔,算力需求或呈量级提升 在技术实现方面,据OpenAI官方文档,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。与GPT模型类似,Sora使用transformer架构,释放出卓越的扩展性能。OpenAI将视频和图像表示 为称为Patch的较小数据单元的集合,每个Patch都类似于GPT中的一个token。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练diffusiontransformer,跨越不同的持续时间、分辨率和纵横比。 图表4:Sora的输入将视频表示为patch 资料来源:OpenAI官网,国盛证券研究所 同时OpenAI官方表示Sora建立在DALLE和GPT模型的基础上:OpenAI使用了在DallE3引入的重标题技术到视频上,首先训练一个高度描述性的标题生成模型,然后使用它为训练集中的所有视频生成文本标题。OpenAI发现基于高度描述性视频标题的 培训可以提高文本保真度以及视频的整体质量。OpenAI还利用GPT将简短的用户提示转换为更长的详细标题,让Sora能够准确遵循用户提示生成高质量的视频。 目前Sora暂未对外开放使用,仅OpenAICEOSamAltman在X平台上与评论互动,生成了许多精美视频。我们认为除了进一步打磨产品,算力的限制也可能是目前Sora暂未开放使用的重要因素。随着AIGC技术在影视剧集、宣传视频、自媒体、游戏 等领域逐步渗透,视频创作效率或迎来显著提升,同时视频模型相对于文字、图像模型的交互数据量级将有巨大提升,或对应算力需求的高速扩张。 图表5:SamAltman在X平台选取评论使用Sora生成视频 资料来源:X平台SamAltman账号,国盛证券研究所 谷歌推出Gemini1.5Pro,上下文长度达百万token 2月15日,谷歌推出Gemini1.5版本,第一款型号是Gemini1.5Pro,具有标准 128k个token的上下文窗口,目前有限的开发人员和企业客户可以通过AIStudio和 VertexAI在个人预览版中使用最多100万个token的上下文窗口进行试用。AI模型 的上下文窗口由token组成,token是用于处理信息的构建块,可以是单词、图像、视 频、音频或代码的整个部分或子部分。模型的上下文窗口越大,它可以在给定提示中获取和处理的信息就越多,从而使其输出更加一致、相关和有效。Gemini1.5Pro支持长达100万个token,这意味着模型可以一次性处理大量信息,如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词。 图表6:Gemini1.5pro的上下文长度领先于其他基础模型 资料来源:谷歌官网,国盛证券研究所 在谷歌官方发布的演示视频中,通过给出阿波罗11号登月任务的402页记录,Gemini 1.5Pro可以推理文档中的对话、事件和细节。 图表7:Gemini1.5pro演示可以理解、推理和识别402页的文档中的细节 资料来源:谷歌官网,国盛证券研究所 多模态能力突出,可理解视频。Gemini1.5Pro可以针对不同的模态(包括视频)执行高度复杂的理解和推理任务。在谷歌官方演示中,给定一部44分钟的电影,该模型可以准确地分析各种情节点和事件,甚至可以推理出电影中容易遗漏的小细节。 图表8:Gemini1.5pro演示可以分析电影中的情节 资料来源:谷歌官网,国盛证券研究所 相比前代,Gemini1.5Pro性能进一步增强,据谷歌官网,在文本、代码、图像、音频和视频评估的综合面板上进行测试时,Gemini1.5Pro在用于LLM的基准测试中,87%的表现优于Gemini1.0Pro。Gemini1.5Pro作为中型大小的多模态模型,相同基准测 试下与此前谷歌最大的Gemini1.0Ultra相比,它的性能大致相似。同时Gemini1.5Pro 即使上下文窗口增加,也能保持高水平的性能。 我们认为,谷歌Gemini1.5的推出进一步促进了大模型技术的良性竞争,产业发展趋势欣欣向荣,有望推动各类AI应用落地,并带来更大算力需求。 投资建议 算力侧:中科曙光、浪潮信息、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 映射应用:万兴科技、紫天科技、虹软科技、大华股份、海康威视。 风险提示 技术迭代不及预期风险:若技术迭代不及预期,对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。 免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本