行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业点评：Sora惊艳发布，文生视频跨越式突破

信息技术 2024-02-17 国盛证券匡露

OpenAI与谷歌AI技术创新概览

OpenAI Sora模型亮点：

视频生成长度：Sora模型可生成1分钟长度的视频，远超竞品。
3D空间一致性：支持动态镜头运动，人物和场景元素在三维空间中保持连贯运动。
长期连续性和物体持久性：能有效处理长期依赖关系，即使对象短暂离镜，也能保持不变。
视频扩展与连接：能向前或向后扩展视频，以及连接不同主题的视频，用于长视频制作。
模拟数字世界：能够模拟人工过程，如控制游戏内角色。

AIGC与算力需求：

Sora模型技术：基于扩散模型，使用transformer架构，将视频和图像表示为Patch，类似GPT中的token。
算力需求：Sora暂未开放使用，可能受限于算力瓶颈；AIGC技术应用将大幅提升视频创作效率，推动算力需求激增。

谷歌Gemini1.5 Pro特性：

上下文长度：支持高达100万个token的上下文窗口，处理大量信息。
多模态能力：支持文本、代码、图像、音频和视频处理，展现强大理解与推理能力。
性能提升：相较于前代，Gemini 1.5 Pro在多种评估中表现更优，尤其是在LLM基准测试中。

投资建议与风险提示：

算力侧：推荐关注中科曙光、浪潮信息等算力硬件供应商。
映射应用：考虑万兴科技、大华股份等受益于AI应用的企业。
风险提示：
- 技术迭代不及预期风险。
- 经济下行超预期风险。
- 行业竞争加剧风险。

此概览总结了OpenAI的Sora模型创新点，AIGC应用对算力的需求增长，以及谷歌Gemini1.5 Pro的技术优势，同时提供了相应的投资建议与风险考量。

OpenAI发布Sora模型，1分钟文生视频效果惊艳。2月15日，OpenAI发布文生视频模型Sora，展示出许多亮点：1）视频生成长度可达1分钟，远超其他文生视频模型。2）3D空间的一致性，Sora可以生成具有动态镜头运动的视频，随着摄像机的移动和旋转，人物和场景元素在三维空间中保持连贯运动。3）长期连续性和物体持久性。可以在单个视频中生成同一物体的多个镜头，一个主题即使暂时离开视野也能保持不变。4）能够向前后扩展视频，以及连接两个视频。5）模拟数字世界，Sora能够模拟人工操作，例如控制Minecraft游戏中的玩家。我们认为Sora相比此前其他文生视频模型，已经跨越到实用生产力工具，1分钟长度有望大规模应用在短视频领域，扩展视频的能力也有望制作长视频，或将带来新一轮内容创作产业革命。 AIGC应用空间广阔，算力需求或呈量级提升。Sora是一种扩散模型，与GPT模型类似，Sora使用transformer架构，将视频和图像表示为称为Patch的较小数据单元的集合，类似于GPT中的token。Sora建立在OpenAI在DallE和GPT模型的基础上。目前Sora暂未对外开放使用，仅OpenAICEO Sam Altman在X平台上与评论互动生成视频，我们认为算力的限制可能是目前Sora暂未开放使用的重要因素。随着AIGC技术在影视剧集、宣传视频、自媒体、游戏等领域逐步渗透，视频创作效率或迎来显著提升，同时视频相对于文字、图像的交互数据量级将有巨大提升，或对应算力需求的高速扩张。谷歌发布Gemini1.5Pro，上下文长度达百万token。2月15日，谷歌推出Gemini1.5Pro，支持长达100万个token，远超当前其他基础模型，可以一次性处理大量信息，如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词。Gemini1.5Pro是一个中型大小的多模态模型，相同基准测试下其性能与此前谷歌最大的Gemini-1.0 Ultra相似，即使上下文窗口增加，Gemini1.5Pro也能保持高水平的性能。我们认为，谷歌Gemini1.5的推出进一步促进了大模型技术的良性竞争，产业发展趋势欣欣向荣。投资建议：算力侧：中科曙光、浪潮信息、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。映射应用：万兴科技、紫天科技、虹软科技、大华股份、海康威视。风险提示：技术迭代不及预期、经济下行超预期、行业竞争加剧。 OpenAI发布Sora模型，1分钟文生视频效果惊艳 2月15日，OpenAI发布Sora模型，作为OpenAI首款文生视频模型，Sora展示出许多亮点：视频生成长度可达1分钟，远超其他文生视频模型。作为对比，目前视频生成领域热门的runwaygen2模型最长可生成18秒的视频，pika1.0最长可生成15秒的视频。 3D空间的一致性。Sora可以生成具有动态镜头运动的视频，随着摄像机的移动和旋转，人物和场景元素在三维空间中保持连贯的运动。图表1：Sora生成动态镜头视频演示长期连续性和物体持久性。Sora通常能够有效地对短期和长期依赖关系进行建模。例如可以保留人、动物和物体，即使它们被遮挡或离开镜头。并且可以在单个样本中生成同一角色的多个镜头，在整个视频中保持外观。OpenAI官网称Sora解决了一个具有挑战性的问题，即确保一个主题即使暂时离开视野也能保持不变。 Sora能够向前或向后扩展视频，以及连接视频，可以使用Sora在两个输入视频之间逐渐插值，在具有完全不同主题和场景构图的视频之间创建无缝过渡。我们认为视频扩展和连接的能力有望用于长视频制作。图表2：Sora连接视频演示，中间的视频是左右两侧视频的插值模拟数字世界。Sora能够模拟人工过程，例如视频游戏。Sora可以同时通过基本策略控制Minecraft游戏中的玩家，同时还可以高保真地渲染世界及其动态。图表3：Sora可以控制Minecraft游戏玩家据OpenAI官网文档，目前Sora模型还有一些局限性：它可能难以准确模拟复杂场景的物理特性，并且可能无法理解具体因果关系，例如一个人咬一口饼干但饼干可能没有咬痕。Sora模型还可能混淆提示的空间细节，例如左右混淆，并且可能难以精确描述随时间推移发生的事件，例如遵循特定的相机轨迹。我们认为Sora相比此前其他文生视频模型，已经从科技探索跨越到实用生产力工具，60秒的视频长度有望大规模应用在短视频领域，且其扩展视频的能力也有望应用于长视频制作，或将带来新一轮内容创作产业革命。 AIGC应用空间广阔，算力需求或呈量级提升在技术实现方面，据OpenAI官方文档，Sora是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐转换视频。与GPT模型类似，Sora使用transformer架构，释放出卓越的扩展性能。OpenAI将视频和图像表示为称为Patch的较小数据单元的集合，每个Patch都类似于GPT中的一个token。通过统一表示数据的方式，可以在比以前更广泛的视觉数据上训练diffusiontransformer，跨越不同的持续时间、分辨率和纵横比。图表4：Sora的输入将视频表示为patch 同时OpenAI官方表示Sora建立在DALLE和GPT模型的基础上：OpenAI使用了在DallE3引入的重标题技术到视频上，首先训练一个高度描述性的标题生成模型，然后使用它为训练集中的所有视频生成文本标题。OpenAI发现基于高度描述性视频标题的培训可以提高文本保真度以及视频的整体质量。OpenAI还利用GPT将简短的用户提示转换为更长的详细标题，让Sora能够准确遵循用户提示生成高质量的视频。目前Sora暂未对外开放使用，仅OpenAICEO Sam Altman在X平台上与评论互动，生成了许多精美视频。我们认为除了进一步打磨产品，算力的限制也可能是目前Sora暂未开放使用的重要因素。随着AIGC技术在影视剧集、宣传视频、自媒体、游戏等领域逐步渗透，视频创作效率或迎来显著提升，同时视频模型相对于文字、图像模型的交互数据量级将有巨大提升，或对应算力需求的高速扩张。图表5：Sam Altman在X平台选取评论使用Sora生成视频谷歌推出Gemini1.5 Pro，上下文长度达百万token 2月15日，谷歌推出Gemini1.5版本，第一款型号是Gemini 1.5 Pro，具有标准128k个token的上下文窗口，目前有限的开发人员和企业客户可以通过AIStudio和VertexAI在个人预览版中使用最多100万个token的上下文窗口进行试用。AI模型的上下文窗口由token组成，token是用于处理信息的构建块，可以是单词、图像、视频、音频或代码的整个部分或子部分。模型的上下文窗口越大，它可以在给定提示中获取和处理的信息就越多，从而使其输出更加一致、相关和有效。Gemini1.5 Pro支持长达100万个token，这意味着模型可以一次性处理大量信息，如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词。图表6：Gemini1.5 pro的上下文长度领先于其他基础模型在谷歌官方发布的演示视频中，通过给出阿波罗11号登月任务的402页记录，Gemini 1.5 Pro可以推理文档中的对话、事件和细节。图表7：Gemini1.5 pro演示可以理解、推理和识别402页的文档中的细节多模态能力突出，可理解视频。Gemini1.5 Pro可以针对不同的模态（包括视频）执行高度复杂的理解和推理任务。在谷歌官方演示中，给定一部44分钟的电影，该模型可以准确地分析各种情节点和事件，甚至可以推理出电影中容易遗漏的小细节。图表8：Gemini1.5 pro演示可以分析电影中的情节相比前代，Gemini 1.5Pro性能进一步增强，据谷歌官网，在文本、代码、图像、音频和视频评估的综合面板上进行测试时，Gemini1.5 Pro在用于LLM的基准测试中，87%的表现优于Gemini1.0 Pro。Gemini 1.5Pro作为中型大小的多模态模型，相同基准测试下与此前谷歌最大的Gemini1.0 Ultra相比，它的性能大致相似。同时Gemini 1.5 Pro即使上下文窗口增加，也能保持高水平的性能。我们认为，谷歌Gemini1.5的推出进一步促进了大模型技术的良性竞争，产业发展趋势欣欣向荣，有望推动各类AI应用落地，并带来更大算力需求。投资建议算力侧：中科曙光、浪潮信息、海光信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。映射应用：万兴科技、紫天科技、虹软科技、大华股份、海康威视。风险提示技术迭代不及预期风险：若技术迭代不及预期，对产业链相关公司会造成一定不利影响。经济下行超预期风险：若宏观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和产业链生产意愿，对整个行业将会造成不利影响。行业竞争加剧风险：若相关企业加快技术迭代和应用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。

点击免费查看完整报告

计算机行业点评：Sora惊艳发布，文生视频跨越式突破

OpenAI与谷歌AI技术创新概览

OpenAI Sora模型亮点：

AIGC与算力需求：

谷歌Gemini1.5 Pro特性：

投资建议与风险提示：

你可能感兴趣

Sora视频多模态大模型惊艳发布，多模态实现跨越式突破

计算机：Sora实现文生视频跨越式突破，AIGC持续正反馈

计算机行业跟踪报告：OpenAI推出首个文生视频大模型Sora，引领AI文生视频行业跨越式发展

传媒互联网行业周报：Sora展示文生视频能力惊艳，重视内容生产工具层革新

信息技术产业行业周报：Open AI文生视频Sora惊艳亮相，看好Ai受益产业链

【国盛计算机】OpenAI发布Sora模型，文生视频迈入新时代

传媒行业事件点评：OpenAI发布文生视频模型Sora，重视内容生产工具层革新

计算机：Openai发布文生视频模型Sora，AI视频商用不再遥远

寒武纪海光重大催化中国Sora字节豆包重磅更新文生视频模型效果惊艳天

传媒行业点评报告：OpenAI发布首款文生视频模型Sora，多模态推动多行业发展可期