行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

计算机软件行业周报：Sora和Gemini 1.5发布，多模态大模型更进一步

信息技术2024-02-18曹佩、王景宜太平洋证券郭***

AI智能总结

计算机行业周报总结

主要事件与进展：

OpenAI发布Sora：OpenAI推出了名为Sora的全新生成式人工智能模型，专注于视频生成领域。Sora的主要突破包括：
- 视频时长：能生成最长60秒的视频，且保持主体与背景的流畅性与稳定性。
- 文本理解能力：准确理解用户指令，无论是复杂场景还是细腻情感表达。
- 真实世界理解：在物理规律、光影、运动等方面表现出较高的真实感。
- 长序列连贯性：在同一视频中保持角色的一致性，即使被遮挡或离开画面。
谷歌发布Gemini 1.5 Pro：谷歌推出了Gemini 1.5 Pro，一种中型多模态模型，其上下文长度突破百万。该模型：
- 支持更长上下文理解，能够处理大量信息，如视频、音频、代码库等。
- 基于Transformer和MoE架构，通过选择性激活最相关的专家路径，提高效率。
- 在多模态信息检索测试中表现优秀，无论文本、音频还是视频，都能高效检索关键信息。

行业动态与投资建议：

市场趋势：多模态大模型的进展加速了计算机行业的创新步伐。
投资聚焦：
- 算法层面：关注科大讯飞、云从科技等公司在AI算法上的创新。
- 应用层面：推荐金山办公、新国都、万兴科技、虹软科技、熵基科技等公司的产品与解决方案。
- 算力层面：关注海光信息、农尚环境、景嘉微、神州数码、中科曙光、寒武纪、浪潮信息等公司在硬件基础设施的支持。

风险提示：

技术研发：面临技术突破不确定性。
市场景气：下游需求可能影响整体市场表现。
生态建设：生态系统构建的挑战。
竞争加剧：行业内部竞争激烈。

结论：

近期，Sora和Gemini 1.5 Pro的发布标志着多模态大模型技术的显著进步，对计算机行业的发展具有重要意义。投资机会主要集中在算法创新、应用场景拓展和算力支持三个方面。然而，投资者应关注技术研发风险、市场景气度、生态建设和竞争加剧等潜在风险。

行业研究计算机 Sora和Gemini1.5发布，多模态大模型更进一步 2024年02月19日行业周报看好/维持计算机软件 走势比较 23/7/10 23/9/18 23/11/27 24/2/5 报告摘要 30% 14% 23/2/20 23/5/1 太 (2%) 平 (18%) 洋 (34%) 证 (50%) 券股 份计算机软件沪深300 子行业评级 OpenAI发布视频生成模型Sora，AI视频生成迎来里程碑。2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。Sora是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片。与此前的视频生成模型相比，Sora主要实现了以下突破：1）视频时长达到60秒：Sora可以通过文本指令直接输出长达60秒的视频，并保持视频主体与背景的高度流畅性与稳定性。2）文本的深度理解能力：Sora可以准确理解用户的文本指令，无论是复杂的动作场景还是细腻的情感表达，Sora都能够精确捕捉并展现。3）对真实世界的理解：Sora对物理规律的遵循程度较高，对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。4）长序列连贯性和目标有基础软件及限管理办公软件公行业应用软司件证新兴计算机软件券研推荐公司及评级究报告相关研究报告无评级无评级无评级持久性：Sora能在单个视频中生成同一角色的多个镜头，并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面，Sora模型也能使其保持不变。谷歌发布Gemini1.5Pro，上下文长度突破百万。2月15日，谷歌宣布了下一代大模型Gemini1.5Pro。Gemini1.5Pro是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型1.0Ultra类似，并引入了长上下文理解方面的突破性实验特征。Gemini1.5Pro基于Transformer和MoE架构建立。MoE模型分为更小的“专家”神经网络，根据给定输入的类型，MoE模型学会选择性地仅激活其神经网络中最相关的专家路径，这种专业化极大地提高了模型的效率。目前，少数开发人员和企业客户可以通过AIStudio和VertexAI的私人预览版在最多100万个token的上 <<2023年计算机行业业绩预告及基金持仓总结>>--2024-02-05 证券分析师：曹佩电话： E-MAIL：caopeisz@tpyzq.com 执业资格证书编号：S1190520080001 证券分析师：王景宜电话： E-MAIL：wangjy@tpyzq.com 执业资格证书编号：S1190523090002 下文窗口中进行尝试，这意味着使用1.5Pro能够一次性处理海量信息，比如1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词。投资建议：Sora以及Gemini大模型的发布进一步推动了多模态大模型的进步，对于计算机板块而言，仍然从三个角度筛选公司： 1）算法层面，重点关注科大讯飞、云从科技； 2）应用层面，重点关注金山办公、新国都、万兴科技、虹软科技、熵基科技等； 3）算力层面，重点关注海光信息、农尚环境、景嘉微、神州数码、中科曙光、寒武纪、浪潮信息等。风险提示：技术研发不及预期；下游景气度不及预期；生态建设不及预期；市场竞争加剧。一、OpenAI发布视频生成模型Sora，AI视频生成迎来里程碑 OpenAI发布视频生成模型Sora。2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。Sora是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片。OpenAI声称，如果给定一段简短或详细的描述或一张静态图片，Sora就能生成类似电影的1080p场景，其中包含多个角色、不同类型的动作和背景细节。OpenAI官方公布了48个用Sora生成的视频示例，充分展示了Sora模型的强大能力。图表1：Sora生成视频示例1图表2：Sora生成视频示例2 资料来源：OpenAI官网，太平洋证券整理资料来源：OpenAI官网，太平洋证券整理与此前的视频生成模型相比，Sora主要实现了以下突破： 视频时长达到60秒：不同于此前发布的模型只能生成几秒到十几秒长度的视频，Sora可以通过文本指令直接输出长达60秒的视频，并保持视频主体与背景的高度流畅性与稳定性。 对文本的深度理解能力：Sora可以准确理解用户的文本指令，无论是复杂的动作场景还是细腻的情感表达，Sora都能够精确捕捉并展现。 对真实世界的理解：Sora不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式，对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。 长序列连贯性和目标持久性：Sora能在单个视频中生成同一角色的多个镜头，并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面，Sora模型也能使其保持不变。图表3：Sora与其他视频生成模型效果对比资料来源：机器之心，太平洋证券整理 多模态输入处理能力：除了文本提示外，Sora还能够接受静态图像或已有视频作为输入，进行内容的延伸、填充缺失帧或进行风格转换等操作。如可以在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。图表4：Sora在两个输入视频之间逐渐进行插值合成新的视频资料来源：OpenAI官网，太平洋证券整理 Sora把视频和图像分解为统一的数据单元Patch。Sora首先将不同类型的视觉数据转换成统一的视觉数据表示（视觉patch），然后将原始视频压缩到一个低维潜在空间，并将视觉表示分解成时空patch（相当于Transformertoken），让Sora在这个潜在空间里进行训练并生成视频。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型，覆盖了不同的持续时间、分辨率和纵横比。图表5：Sora将视频数据转换为视觉块（patch）资料来源：OpenAI官网，太平洋证券整理 Sora将Transformer和扩散模型相结合。Sora是一种扩散模型，输入一个噪声Patch，经过多步骤的噪声去除过程，来预测下一个Patch。Sora采用了DALL·E3的重标注技术，通过为视觉训练数据生成详细描述的标题。同时，利用GPT将简短的用户提示转换为更长的详细字幕，然后发送到视频模型。这使Sora能够准确遵循用户提示生成高质量的视频。图表6：Sora将Transformer和扩散模型相结合资料来源：OpenAI官网，太平洋证券整理二、谷歌发布Gemini1.5Pro，上下文长度突破百万 2月15日，谷歌宣布了下一代大模型Gemini1.5Pro。Gemini1.5Pro是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型1.0Ultra类似，并引入了长上下文理解方面的突破性实验特征。目前，少数开发人员和企业客户可以通过AIStudio和VertexAI的私人预览版在最多100万个token的上下文窗口中进行尝试，这意味着使用1.5Pro能够一次性处理海量信息，比如1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词。图表7：Gemini1.5Pro上下文窗口长度远超现有其他大模型资料来源：Google官网，太平洋证券整理 Gemini1.5Pro基于Transformer和MoE架构建立。传统Transformer充当一个大型神经网络，而MoE模型则分为更小的“专家”神经网络。根据给定输入的类型，MoE模型学会选择性地仅激活其神经网络中最相关的专家路径，这种专业化极大地提高了模型的效率。Google是深度学习MoE技术的先驱，其对该技术的深入理解保障了Gemini系列模型的快速迭代。 Gemini1.5Pro具备精确检索海量信息的能力。在多模态海底捞针测试中，对于文本处理，Gemini1.5Pro在处理高达530,000token的文本时，能够实现100%的检索完整性，在处理1,000,000token的文本时达到99.7%的检索完整性。甚至在处理高达10,000,000token的文本时，检索准确性仍然高达99.2%。在音频处理方面，Gemini1.5Pro能够在大约11小时的音频资料中，100%成功检索到各种隐藏的音频片段。在视频处理方面，Gemini1.5Pro能够在大约3小时的视频内容中，100%成功检索到各种隐藏的视觉元素。图表8：Gemini1.5Pro多模态海底捞针测试表现资料来源：Google官网，太平洋证券整理 Gemini1.5Pro能够深入理解多模态海量信息。1.5Pro可以针对包括文本、图片、视频在内的不同模式执行高度复杂的理解和推理任务。例如，输入一份阿波罗11号任务到月球的402页飞行记录，可以对文档中的复杂信息进行提问，模型会给出精确的回答。当给定一部44分钟的无声电影时，该模型可以准确分析各种情节点和事件，甚至推理出电影中容易被忽略的小细节。图表9：Gemini1.5Pro能够读取402页PDF图表10：Gemini1.5Pro能够理解电影中的细节资料来源：Google官网，太平洋证券整理资料来源：Google官网，太平洋证券整理三、投资建议 Sora以及Gemini大模型的发布进一步推动了多模态大模型的进步，对于计算机板块而言，仍然从三个角度筛选公司： 1）算法层面，重点关注科大讯飞、云从科技； 2）应用层面，重点关注金山办公、新国都、万兴科技、虹软科技、熵基科技等； 3）算力层面，重点关注海光信息、农尚环境、景嘉微、神州数码、中科曙光、寒武纪、浪潮信息等。四、风险提示技术研发不及预期；下游景气度不及预期；生态建设不及预期；市场竞争加剧。投资评级说明 1、行业评级看好：预计未来6个月内，行业整体回报高于沪深300指数5%以上；中性：预计未来6个月内，行业整体回报介于沪深300指数－5%与5%之间；看淡：预计未来6个月内，行业整体回报低于沪深300指数5%以下。 2、公司评级买入：预计未来6个月内，个股相对沪深300指数涨幅在15%以上；增持：预计未来6个月内，个股相对沪深300指数涨幅介于5%与15%之间；持有：预计未来6个月内，个股相对沪深300指数涨幅介于-5%与5%之间；减持：预计未来6个月内，个股相对沪深300指数涨幅介于-5%与-15%之间；卖出：预计未来6个月内，个股相对沪深300指数涨幅低于-15%以下。公司地址北京市西城区北展北街9号华远企业号D座二单元七号上海市浦东南路500号国开行大厦17楼太平洋证券深圳市福田区商报东路与莲花路新世界文博中心19层1904 广州大道中圣丰广场988号102太平洋证券研究院中国北京100044 北京市西城区北展北街九号华远·企业号D座投诉电话：95397 投诉邮箱：kefu@tpyzq.com 重要声明太平洋证券股份有限公司具有经营证券期货业务许可证，公司统一社会信用代码为： 91530000757165982D。本报告信息均来源于公开资料，我公司对这些信息的准确性和完整性不作任何保证。负责准备本报告以及撰写本报告的所有研究分析师或工作人员在此保证，本研究报告中关于任何发行商或证券所发表的观点均如实反映分析人员的个人观点。报告中的内容和意见仅供参考，并不构成对所述证券买卖的出价或询价。我公司及其雇员对使用本报告及其内容所引发的任何直接或间接损失概不负责。我公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易，还可能为这些公司提供或争取提供投资银行业务服务。本报告版权归太平洋证券股份有限公司所有，未经书面许可任何机构和个人不得以任何形式翻版、复制、刊登。任何人使用本报告，视为同意以上声明。

点击免费查看完整报告