您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:通信行业重大事项点评:Gemini重磅更新,Sora火爆出圈,AI应用“龙腾虎跃” - 发现报告
当前位置:首页/行业研究/报告详情/

通信行业重大事项点评:Gemini重磅更新,Sora火爆出圈,AI应用“龙腾虎跃”

信息技术2024-02-19欧子兴华创证券阿***
通信行业重大事项点评:Gemini重磅更新,Sora火爆出圈,AI应用“龙腾虎跃”

事项: 2月16日,OpenAI发布文生视频大模型Sora。2月15日,Google发布Gemini新一代版本Gemini1.5。 评论: OpenAI发布文生视频大模型Sora,模型展现出诸多亮点。Sora模型主要有以下功能:1)遵循用户文本生成长达1分钟的视频;2)参考图像衍生出视频内容;3)参考一段基础视频,更换视频环境、场景主题、拍摄手法等;4)向前拓展视频,可以生成视频开头部分且保持视频结尾的一致;5)将多个毫无关系的视频无缝连接到一起。相比此前已发布的文生视频大模型,Sora在多个方面取得突破,成为超越行业的领先AI应用。OpenAI在随后发布的技术研究文档中高度评价了Sora的意义,认为视频模型的持续扩展是一条构建物理世界和数字世界的高性能模拟器的有效途径。 Sora的核心三要素:Diffusion+Transformer+Patch。根据OpenAI的技术文档,Sora的模型本质是一个Diffusion Transformer,即同时应用到了Diffusion和Transformer两项技术,根据专家观点,模型可能仅有约30亿参数,可能表明训练Sora模型可能不需要太多算力,未来将出现非常快的迭代。Sora使用降维时空Patch统一视觉数据,保持视频/图片分辨率,提高生成内容的逻辑连贯性。Sora通过Patch方式可以对原始大小的数据进行训练,具有灵活采样、改善构图和取景等优势。 Google发布Gemini 1.5,超长token进一步拓展应用场景。继2023年12月发布Gemini 1.0后,Google近期发布了Gemini 1.5版本,短时间内实现较大的迭代更新。本次更新最大的亮点为其最高支持100万tokens的上下文,在内部研究环境,Google成功测试了1000万tokens上下文。模型的上下文窗口越大,其可以接收和处理的信息就越多,从而使得输出的一致性、相关性和可用性更强,对于拓展模型应用具有很大的意义。此外Gemini 1.5是一个MoE(Mixture of Experts,混合专家)模型,根据输入的类型,模型会决定最相关的专家网络来输出结果,因此能够更快且高质量地学习复杂任务,同时更高效地完成训练和提供服务。 投资建议: 1)随着Google Gemini 1.5和OpenAI Sora的发布,AI的大模型能力持续得到增强,现象级的AI应用有望逐步清晰呈现,AI商业闭环有望加速。特别对于视频类应用,由于其受众广泛,随着应用规模的推开,有望释放较大的市场增长弹性,同时视频占用流量资源较多,对上游计算、传输等基础设施的大量需求也有望得到释放。 2)Sora虽然在训练模型上不需要太多参数,但实际应用由于推理生产视频过程中将涉及较大数据量的计算,同时为追求较高的视频生成效果,训练和推理过程中都需要进行尽量多次数的迭代计算,将释放大量算力需求,利好算力底座产业链,建议优先关注深度参与构建全球先进AI算力设施的光互联光模块企业,建议关注天孚通信、中际旭创。 3)Sora的火爆出圈说明市场对于AI视频生成的高度关注,未来AI生成视频领域的用户规模和市场空间都值得期待。Sora的出现降低了优质视频的生产制造门槛,或将带来更大规模的视频创作热潮。此外Sora视频的创作和传播天然具有国际化条件,视频出海需求或有望提升。Sora等文生视频AI应用有望拉动视频流量规模进一步提升,释放更多带宽传输需求。建议重点关注受益逻辑更直接的内容分发网络CDN产业链,建议关注网宿科技。 风险提示:AI技术发展不及预期、文生视频应用落地不及预期、行业监管风险、行业竞争加剧、光通信供应格局出现变动。 一、OpenAI发布Sora模型,诸多亮点引爆市场关注 2月16日,OpenAI发布文生视频大模型Sora,模型展现出诸多亮点。Sora模型主要有以下功能:1)遵循用户文本生成长达1分钟的视频;2)参考图像衍生出视频内容;3)参考一段基础视频,更换视频环境、场景主题、拍摄手法等;4)向前拓展视频,可以生成视频开头部分且保持视频结尾的一致;5)将多个毫无关系的视频无缝连接到一起。相比此前已发布的文生视频大模型,Sora在多个方面取得突破,成为超越行业的领先AI应用,具体包括: 视频时长。Sora可以生成长达一分钟的1080p高清AI视频,而之前的文生视频模型最多生成3-4秒,相比之下树立了新的行业标准; 对3D一致性的控制能力。此前为了保证AI生成视频的质量,需要尽量减少镜头的移动和旋转,而在Sora生成视频中的即使镜头移动,人物、场景都能够保持一致性; 保持主体持久性。能够让物体在视频中消失后再出现时还能继续完整地显示,大幅提升了视频的真实性。 让视频存在物理交互反馈。比如此前AI生成的视频无法反馈“吃”这一动作对于食物的影响,Sora可以理解并体现这一物理过程,让视频更加真实合理。 模拟数字世界。Sora可以模拟人工创造的数字世界,例如通过关键字“Minecraft”可控制生成游戏画面,用户无需提前额外输入相关样本。 图表1汉堡边缘的咬痕显示Sora生成视频真实性高 图表2 Sora可生成模拟数字世界的视频 图表3文字生成视频模型领域目前主要公司 扩展视频生成模型是构建物理世界通用模拟器的一条有效途径。OpenAI在随后发布的技术研究文档中高度评价了Sora的意义,认为Sora的功能表明,视频模型的持续扩展是一条构建物理世界和数字世界的高性能模拟器的有效途径。此外,根据Nvidia的研究科学家和人工智能代理专家Jim Fan的观点,Sora的核心是一个物理引擎,通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等,对现实或者虚拟世界进行模拟,虽然Sora目前对物理的理解还远远不够,仍然存在“幻觉”,但其对未来Sora的演进具有较高信心,认为当前Sora是视频生成的GPT-3时刻,不要纠结于之前GPT-3的缺陷,可以多期待后面的GPT-4。 图表4杯子碰撞后不会破碎,说明Sora尚不能准确模拟真实物理过程 二、Sora的核心三要素:Diffusion+Transformer+Patch Sora模型创造性结合Diffusion与Transformer,参数量可能较小。根据OpenAI的技术文档,Sora的模型本质是一个DiffusionTransformer,即同时应用到了Diffusion和Transformer两项技术,这是与此前的文生图片或者文生视频模型最大的不同。技术文档中OpenAI未公开更多技术细节,根据技术文档所引用的参考论文《Scalable Diffusion Models with Transformers》的作者SainingXie推测,Sora是参考了论文所提出的以Transformer为主干的扩散模型(DIT),其中,DIT=[VAE编码器+VIT+DDPM+VAE解码器],VAE将图像编码为潜在表示,ViT用于提取图像特征,DDPM用于生成噪声图像,VAE解码器用于生成图像。同时他还认为Sora模型可能仅有约30亿参数,可能表明训练Sora模型可能不需要大家预期那样多的GPU,因此他预计未来Sora将出现非常快的迭代。 图表5 Diffusion Transformer的架构 图表6 Sora使用Diffusion降噪生成视频的过程 Sora使用降维时空Patch统一视觉数据,保持视频/图片分辨率,提高生成内容的逻辑连贯性。OpenAI参考LLM大语言模型中统一了代码、数学和各种自然语言等多种模式文本的Token,提出了使用Patch来作为图片或者视频数据的有效表示来训练模型。Sora将原视频进行压缩降维成“潜在内容”,然后分解为时空Patch,用于进行训练或者推理,此外Sora还训练了相应的VAE解码器模型,将生成的“潜在内容”映射回像素空间,输出视频或者图片。基于Patch的工作方式使得Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练,可采样数据量相比之前的固定大小视频有大幅提升。在推理时,通过使用相应大小的随机初始化Patch即可控制生成视频的大小。Sora通过Patch方式可以对原始大小的数据进行训练,具有灵活采样、改善构图和取景等优势。 图表7 Google团队的Vision Transformer (ViT)模型概述 图表8 Sora将视频转换为Patch进行训练和推理 三、Google发布Gemini1.5,超长token进一步拓展应用场景 最高可达1000万的超长Tokens为Gemini1.5Pro的最大亮点。继2023年12月发布Gemini1.0后,Google近期发布了Gemini1.5版本,短时间内实现较大的迭代更新。本次更新最大的亮点为其超长的Token,目前标准版的Gemini1.5可支持12.8万tokens的上下文窗口,同时部分开发人员和企业客户可以通过AI Studio和Vertex AI使用最高支持100万tokens的上下文,而在内部研究环境,Google成功测试了1000万tokens上下文。参考Google的介绍,100万Tokens上下文意味着可以一次性处理1个小时视频、11个小时音频、3万行代码或者70万单词,比如Gemini1.5可以轻松理解、推理并识别出阿波罗11号登月任务402页记录中的细节,识别出44分钟视频中的场景,对超过100,000行代码提出修改建议和解释实现原理等。我们认为,模型的上下文窗口越大,其可以接收和处理的信息就越多,从而使得输出的一致性、相关性和可用性更强,对于拓展模型应用具有很大的意义。此外根据Google公开信息,Gemini1.5是一个MoE(Mixture of Experts,混合专家)模型,根据输入的类型,模型会决定最相关的专家网络来输出结果,因此能够更快且高质量地学习复杂任务,同时更高效地完成训练和提供服务。 图表9 Gemini1.5Pro已支持100万Token 图表10 Gemini识别多达402页的文档记录 图表11 Gemini识别长达44分钟的视频资料 四、投资建议:关注算力及传输需求提升带来的投资机会 AI模型能力持续增强,应用不断推陈出新,有望推动实现商业闭环。随着GoogleGemini 1.5和OpenAISora的发布,AI的大模型能力持续得到增强,日益提升的Tokens使得大模型应用场景得到进一步拓展,文生视频等更直观的模拟世界应用持续提升使用效果,现象级的AI应用有望逐步清晰呈现,AI商业闭环有望加速。特别对于视频类应用,由于其受众广泛,随着应用规模的推开,有望释放较大的市场增长弹性,同时视频占用流量资源较多,对于上游计算、传输等基础设施的大量需求也有望得到释放。 关注Sora在推理侧的算力需求,建议关注算力底座光互联。根据前面的分析,我们认为,Sora虽然在训练模型上不需要太多参数,但未来Sora的规模应用将释放大量算力需求,驱动因素主要包括: Sora使用降维的时空Patch作为视觉数据模型的有效表示,数据量较大,同时为了保持视频内容的逻辑性和连贯性,在训练或者推理过程中未对视频进行调整、裁剪或修剪,因此在推理生产视频过程中将涉及较大数据量的计算,对算力需求较大。假如后续Sora推广应用,大量用户的创作将释放海量视频生成需求,预计对推理侧算力的需求拉动明显; Diffusion迭代次数越多,所生成的视频效果越优质。因此虽然Sora训练参数量不大,但为追求较高的视频生成效果,在训练和推理过程中,都需要进行尽量多次数的迭代计算,降低噪声规模。 基于以上,我们认为,Sora实际应用将释放大量算力需求,利好算力底座产业链,建议优先关注深度参与构建全球先进AI算力设施的光互联光模块企业,建议关注天孚通信、中际旭创。 图表12随着计算量增加,Sora输出视频的质量显著提高 视频或成为AI应用落地的下一突破口,建议关注CDN产业链。Sora的火爆出圈说明市场对于AI视