谷歌再更新Gemini大模型,立足MoE架构性能更加卓越 证券研究报告|计算机 强于大市(维持) 行业核心观点: ——计算机行业跟踪报告 2024年02月21日 行业相对沪深300指数表现 谷歌推出Gemini1.5Pro版本,性能水平与Gemini1.0Ultra类似。 3436 2024年2月15日,谷歌再次更新其Gemini大模型至Gemini1.5代,并推出Gemini1.5Pro版本。Gemini1.5Pro的性能水平与谷歌至今为止最大的模型Gemini1.0Ultra类似。与Gemini1.0代对比,Gemini 1.5Pro的性能大大超过了Gemini1.0Pro,在绝大多数(27/31)的基准测试(benchmarks)中表现更好;而在与Gemini1.0Ultra的对比中,Gemini1.5Pro在超过一半的基准测试上表现更好,尤其是在多数文本基准测试(10/13)和部分视觉基准测试(6/13)中都表现优于 30% 20% 10% 0% -10% -20% -30% -40% -50% 计算机沪深300 行业研 究 行业跟踪报 告 证券研究报 告 Gemini1.0Ultra。 投资要点: 建立在MoE架构上,能更高效的训练和服务。Gemini1.5大模型建立在对稀疏(sparse)混合专家(mixture-of-expert,MoE)架构及Transformer架构领先的研究上,其训练和服务更为高效。传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络。混合专家模型(MoE)主要由两个关键部分组成:1)稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”,每个“专家”本身是一个独立的神经网络;2)门控网络或路由:这个部分 用于决定每个token被发送到哪个“专家”。这种“术业有专攻”的架构,能够极大的提高模型的效率,让MoE能够在远少于稠密模型所需的计算资源下进行有效的预训练,因此基于MoE架构的Gemini1.5在训练和服务上也更为高效。 具备超大容量的上下文窗口,可对大量信息进行复杂推理。Gemini1.5Pro是一种中等规模(mid-size)的多模态模型,引入了在上下文理解方面的突破性实验特征。Gemini1.5Pro除了配有标准的128,000token的上下文窗口,少数开发人员和企业客户还可以通过AIStudio和VertexAI的私人预览版在最多1,000,000个token的上下文窗口中进行尝试和体验。100万个token的上下文窗口容量相当于Gemini1.5Pro可以一次性处理1小时视频/11小时音频/超过30,000行代码/超过700,000个单词(word)的信息库,能够对大量的信息进行复杂推理。 投资建议:Gemini1.5Pro的超大容量上下文窗口有助于其应用在更多的领域。同时,MoE架构能让模型更高效的训练和服务,也有助于多模型大模型在应用端的加速落地。我们认为MoE架构有望成为多模态大模型的主流应用架构之一,建议关注超大容量上下文长度以及MoE架构助力多模态大模型在应用端加速落地带来的投资机遇,同时继续关注多模态大模型对算力的持续需求。 风险因素:人工智能产业发展不及预期,应用落地不及预期,AI带来的隐私、版权与技术风险。 数据来源:聚源,万联证券研究所 相关研究 利润端整体承压,过半标的呈现向好趋势Gemini1.5和Sora相继发布,关注AIGC应用落地及对算力的需求提振 OpenAI推出首个文生视频大模型Sora,引领AI文生视频行业跨越式发展 分析师:夏清莹 执业证书编号:S0270520050001 电话:075583223620 邮箱:xiaqy1@wlzq.com.cn 正文目录 1Gemini1.5Pro发布,立足MoE架构,性能更加优越3 1.1谷歌Gemini系列再更新,Gemini1.5Pro性能可媲美Gemini1.0Ultra3 1.2建立在MoE架构上,能更高效的训练和服务3 1.3具备超大容量的上下文窗口,可对大量信息进行复杂推理4 2投资建议6 3风险提示6 图表1:谷歌Gemini系列产品一览3 图表2:Gemini1.5Pro和Gemini1.0Pro及Gemini1.0Ultra的对比3 图表3:MoE架构原理示意图4 图表4:Gemini1.5具有超大容量的上下文窗口4 图表5:Gemini1.5Pro可以处理阿波罗11号登月任务402页的记录5 图表6:Gemini1.5Pro可以识别一部44分钟无声电影中的场景5 图表7:Gemini1.5Pro可以推理超过100,000行代码6 1Gemini1.5Pro发布,立足MoE架构,性能更加优越 1.1谷歌Gemini系列再更新,Gemini1.5Pro性能可媲美Gemini1.0Ultra谷歌多模态大模型再更新,推出Gemini1.5Pro版本。Gemini系列大模型是谷歌的多模态(multimodality)大模型,能够处理跨越文本、图片、音频、视频、代码等 多模态信息。此前,谷歌推出的Gemini1.0总共有Nano、Pro、Ultra三个版本。2024年2月15日,谷歌再次更新其Gemini大模型至Gemini1.5代,并推出Gemini1.5Pro版本。 图表1:谷歌Gemini系列产品一览 资料来源:GoogleDeepMind官网,万联证券研究所 Gemini1.5Pro的性能水平与谷歌至今为止最大的模型Gemini1.0Ultra类似。与 Gemini1.0代对比,Gemini1.5Pro的性能大大超过了Gemini1.0Pro,在绝大多数 (27/31)的基准测试(benchmarks)中表现更好;而在与Gemini1.0Ultra的对比 中,Gemini1.5Pro在超过一半的基准测试上表现更好,尤其是在多数文本基准测试 (10/13)和部分视觉基准测试(6/13)中都表现优于Gemini1.0Ultra。图表2:Gemini1.5Pro和Gemini1.0Pro及Gemini1.0Ultra的对比 资料来源:Google技术报告,万联证券研究所 1.2建立在MoE架构上,能更高效的训练和服务 Gemini1.5大模型建立在对sp稀ar疏s(e)混合专家(mixture-of-expert,MoE)架 构及Transformer架构领先的研究上,其训练和服务更为高效。传统的Transformer是 一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络。混合专家模型 (MoE)主要由两个关键部分组成:1)稀疏MoE层:这些层代替了传统Transformer模型 中的前馈网络(FFN)层。MoE层包含若干“专家”,每个“专家”本身是一个独立的神经网络;2)门控网络或路由:这个部分用于决定每个token被发送到哪个“专家”。例如,在下图中,“More”这个token被发送到第二个专家,而“Parameters”这个token被发送到第一个专家。这种“术业有专攻”的架构,能够极大的提高模型的效率,让MoE能够在远少于稠密模型所需的计算资源下进行有效的预训练,基于MoE架构的Gemini1.5在训练和服务上也更为高效。 图表3:MoE架构原理示意图 资料来源:HuggingFace、SwitchTransformerspaper,万联证券研究所 1.3具备超大容量的上下文窗口,可对大量信息进行复杂推理 Gemini1.5Pro是中等规模的多模态模型,具有超大容量的上下文窗口。谷歌现在 推出的Gemini1.5Pro是一种中等规模(mid-size)的多模态模型,引入了在上下文 理解方面的突破性实验特征。Gemini1.5Pro除了配有标准的128,000token的上下 文窗口,少数开发人员和企业客户还可以通过AIStudio和VertexAI的私人预览版在最多1,000,000个token的上下文窗口中进行尝试和体验。100万个token的上下文窗口容量相当于Gemini1.5Pro可以一次性处理1小时视频/11小时音频/超过30,000行代码/超过700,000个单词(word)的信息库。 图表4:Gemini1.5具有超大容量的上下文窗口 资料来源:机器之心、腾讯网,万联证券研究所 Gemini1.5Pro能够对大量的信息进行复杂推理,可以在给定提示内无缝分析、分 类和总结大量内容。例如,当给出阿波罗11号登月任务的402页记录时,Gemini1.5 Pro可以推理文档中的对话、事件和细节。 图表5:Gemini1.5Pro可以处理阿波罗11号登月任务402页的记录 资料来源:机器之心、腾讯网,万联证券研究所 Gemini1.5Pro能够更好地理解和推理跨模态,可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部44分钟的巴斯特·基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。当给出简单的线条图作为现实生活中物体的参考材料时,Gemini1.5Pro可以识别44分钟的巴斯特基顿无声电影中的场景。 图表6:Gemini1.5Pro可以识别一部44分钟无声电影中的场景 资料来源:机器之心、腾讯网,万联证券研究所 Gemini1.5Pro能够使用较长的代码块解决相关问题。例如,当给出超过100,000行代码的提示时,它可以更好地推理示例、建议有用的修改并解释代码不同部分的工作原理。 图表7:Gemini1.5Pro可以推理超过100,000行代码 资料来源:机器之心、腾讯网,万联证券研究所 2投资建议 Gemini1.5Pro的超大容量上下文窗口有助于其应用在更多的领域。同时,MoE架构能让模型更高效的训练和服务,也有助于多模型大模型在应用端的加速落地。我们认为MoE架构有望成为多模态大模型的主流应用架构之一,建议关注超大容量上下文长度以及MoE架构助力多模态大模型在应用端加速落地带来的投资机遇,同时继续关注多模态大模型对算力的持续需求。 3风险提示 人工智能产业发展不及预期,应用落地不及预期,AI带来的隐私、版权与技术风险。 行业投资评级 强于大市:未来6个月内行业指数相对大盘涨幅10%以上; 同步大市:未来6个月内行业指数相对大盘涨幅10%至-10%之间;弱于大市:未来6个月内行业指数相对大盘跌幅10%以上。 公司投资评级 买入:未来6个月内公司相对大盘涨幅15%以上; 增持:未来6个月内公司相对大盘涨幅5%至15%;观望:未来6个月内公司相对大盘涨幅-5%至5%;卖出:未来6个月内公司相对大盘跌幅5%以上。基准指数:沪深300指数 风险提示 我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资 的相对比重建议;投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告,以获取比较完整的观点与信息,不应仅仅依靠投资评级来推断结论。 证券分析师承诺 本人具有中国证券业协会授予的证券投资咨询执业资格并登记为证券分析师,以勤勉的执业态度,独立、客观 地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。 免责条款 万联证券股份有限公司(以下简称“本公司”)是一家覆盖证券经纪、投资银行、投资管理和证券咨询等多项 业务的全国性综合类证券公司。本公司具有中国证监会许可的证券投资咨询业务资格。 本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。本报告中的信息或所表述的意见并未考虑到个别投资者的具体投资目的、财务状况以及特定需求。客户应自