热门搜索：

计算机行业动态跟踪报告：多模态能力表现亮眼，谷歌携Gemini王者归来

信息技术2023-12-07闫磊、付强、黄韦涵平安证券郭***

AI智能总结

行业动态跟踪报告：谷歌Gemini大模型与AI算力展望

主要亮点：

Gemini大模型：谷歌推出了其最新大模型Gemini，主打多模态能力，性能对标GPT-4，展现出在文本、多模态、模态组合领域的卓越表现。
算力优势：发布了新一代云端AI芯片TPU v5p，这是目前功能最强、效率最高且可扩展性最强的TPU系统，能够大幅提升训练大模型的速度和准确性。
商业化潜力：Gemini系列将快速融入谷歌生态，应用于Bard、Pixel 8 Pro、Chrome等产品，同时通过谷歌云向企业客户提供API访问。

行业与市场展望：

AI算力需求增长：在全球竞争加剧背景下，看好AI算力需求的持续增长。
多模态AI竞争：多模态AI的竞争将进一步提升大模型的整体能力，拓展应用场景。
国产大模型与AI芯片：我国政策推动下，国产大模型能力提升，面临美国出口管制挑战，但有望促进国内产业链成熟。
投资建议：推荐关注算力、算法、应用场景和网络安全相关公司，特别是海光信息、中科曙光、科大讯飞、金山办公等。

风险提示：

算法发展风险：国内大模型算法可能不及预期。
供应链风险：AI算力供应链可能受阻，影响产业发展。
应用落地风险：大模型产品市场拓展可能低于预期。

结论：

谷歌Gemini大模型的发布不仅回应了市场对其的期待，而且在多模态能力上超越了竞品，展现了其在AI领域的领先地位。随着算力的增强和生态的整合，Gemini有望在多个领域产生深远影响。同时，面对国内外市场环境的变化，我国大模型和AI芯片产业正迎来新的机遇与挑战，值得持续关注。

行业动态跟踪报告计算机 2023年12月07日多模态能力表现亮眼，谷歌携Gemini王者归来强于大市（维持）行情走势图相关研究报告【平安证券】行业点评*计算机*OpenAI发布GPT-4Turbo，推出GPTStore完善大模型应用生态*强于大市20231107 【平安证券】行业点评*计算机*微软正式发布Office 365Copilot的定价，大模型提高客单价的逻辑进一步被验证*强于大市20230720 【平安证券】行业点评*计算机*《生成式人工智能服务管理暂行办法》发布，我国大模型商用浪潮即将开启*强于大市20230714 证券分析师闫磊投资咨询资格编号 S1060517070006 YANLEI511@pingan.com.cn 付强投资咨询资格编号 S1060520070001 FUQIANG021@pingan.com.cn 黄韦涵投资咨询资格编号 S1060523070003 HUANGWEIHAN235@pingan.com.cn 事项：当地时间12月6日，谷歌公司宣布推出其规模最大、功能最强的多模态大模型Gemini，其最强大的TPU（张量处理单元）系统“CloudTPUv5p”，以及来自谷歌云的人工智能超级计算机。平安观点： Gemini大模型主打多模态，性能对标GPT-4。本次谷歌推出的多模态大模型Gemini依然采用Transformer架构，采用高效Attention机制，支持32k的上下文长度，1.0家族涵盖Ultra、Pro、Nano三类模型，各有定位。Gemini主打在多模态领域的突出能力：1）文本领域，GeminiUltra在多项基准测试中领先于GPT-4，并成为现有第一个在大规模多任务语言理解（MMLU）方面超越人类专家的模型。2）多模态领域，GeminiUltra在图像、视频、音频多项基准测试中同样实现超越GPT-4V。3）此外模态组合领域，Gemini还展示了处理多模态输入、跨模态推理的强大能力。结合此前市场传闻谷歌将延迟发布Gemini，我们认为本次无论是Gemini如期发布，还是其超越有力竞争对手的多模态能力，总体超出市场预期。 算力优势稳固，发布新一代云端AI芯片TPUv5p。本次谷歌在发布Gemini的同时推出了全新的面向云端AI加速的TPUv5p，这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的TPU系统。谷歌表示，Gemini1.0 采用TPUv4和v5e芯片上进行大规模训练，在TPU上Gemini的运行速度明显快于早期规模更小、性能更弱的模型，新一代CloudTPUv5p专为训练前沿AI模型设计，未来TPUv5p也会应用于加速Gemini开发。TPUv5p性能较TPUv4全面提升，并能实现更快地训练大模型。 背靠谷歌生态帝国，Gemini商业化想象空间广阔。从大模型应用端来看，相较OpenAI，谷歌的商业版图更为广阔，Gemini系列规模和功能强大，预计将快速融入谷歌生态，未来商业模式拥有极大的想象空间。内部生态融合计划来看，谷歌表示，从发布日起，Gemini可开始应用于Bard和Pixel8Pro智能手机，并将很快与谷歌服务中的其他产品集成，包括Chrome、搜索和广告等。外部用户开放情况来看，谷歌计划通过谷歌云将Gemini授权给客户，12月13日开始，开发者和企业客户可以访问GeminiPro，安卓开发人员可以使用GeminiNano完成构建。行业报告行业动态跟踪报告证券研究报告 投资建议：全球巨头角逐愈演愈烈，继续看好AI算力需求增长和应用场景拓宽。谷歌作为全球人工智能龙头之一，无论在算力、算法还是商业化各个方面都积蓄了优势，Gemini系列大模型的如期推出，打破此前市场关于延期发布的传闻，同时Gemini系列在传统文本领域以及多模态领域能力均对标GPT-4，总体超出市场预期。我们可以看到人工智能巨头在大模型领域的竞争依然白热化，在此背景下继续看好AI算力需求的增长，同时，当下对于多模态AI的激烈角逐也将持续拔升大模型的整体能力水平，有助于不断拓展大模型的应用场景和边界，想象空间广阔。当前，我国通用人工智能产业政策逐步完善，国产大模型能力持续升级。美国对华半导体出口管制升级，将倒逼我国国产AI芯片产业链加快成熟。随着国产大模型厂商和AI芯片厂商的持续发力，我国AIGC产业未来发展前景广阔。在标的方面：1）算力方面，推荐海光信息、中科曙光、紫光股份、浪潮信息、龙芯中科，建议关注神州数码、寒武纪、景嘉微；2）算法方面，推荐科大讯飞；3）应用场景方面，推荐金山办公，建议关注万兴科技、拓尔思；4）网络安全方面，强烈推荐启明星辰。 风险提示：1）国内大模型算法发展可能不及预期。2）AI算力供应链风险上升。3）大模型产品的应用落地低于预期。一、Gemini大模型主打多模态，性能对标GPT-4 Gemini主打多模态能力。本次谷歌推出的多模态大模型Gemini依然采用Transformer架构，采用高效Attention机制，支持32k的上下文长度。Gemini主打在多模态领域的突出能力，在输入端，Gemini可以适应文本与音视频交叉的输入序列，比如自然图像、图表、截图、pdf和视频等，在输出端，Gemini兼具文本和图像两种输出形式。与市面上大模型不同的地方在于，Gemini从设计之初开始就是多模态的，并不像OpenAI构建DALL·E和Whisper单独训练图像和语音模型。图表1Gemini主打多模态能力：输入支持交叉序列，输出支持文本和图像资料来源：谷歌《Gemini:AFamilyofHighlyCapableMultimodalModels》，平安证券研究所 Gemini1.0家族涵盖三类模型，各有定位。1）GeminiUltra：用于高度复杂的任务，为规模最大、功能最强的类别，定位为GPT-4的竞争对手；2）GeminiPro：是一款中端型号，用于增强性能和大规模部署能力，根据谷歌技术报告，其性能优于GPT-3.5；3）GeminiNano：主要用于特定任务和移动设备。图表2Gemini1.0家族涵盖Ultra、Pro、Nano三类模型资料来源：谷歌DeepMind官网，平安证券研究所模型能力方面，Gemini系列在文本、多模态、模态组合等领域均实现了较大进展，在绝大多数基准测试中性能领先于GPT-4。 1）文本领域，GeminiUltra在多项基准测试中领先于GPT-4，并成为现有第一个在大规模多任务语言理解（MMLU）方面超越人类专家的模型。在谷歌技术报告中，公司将Gemini与GPT-4以及此前谷歌最强的语言大模型PaLM2等等进行了比较，在大型语言模型（LLM）研发中使用的32个广泛使用的学术基准中，GeminiUltra的性能有30个超过了当前最先进的结果（SOTA，StateOfTheArt），全面领先于GPT-4。MMLU方面，GeminiUltra同样优于所有现有模型，达到90.04%的准确率。MMLU基准测试综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试大模型世界知识和解决问题的能力，人类专家表现作为基准被衡量为89.8%。根据公司介绍，GeminiUltra被证明是第一个超过人类专家基准的模型，此前最先进的公开结果来自GPT-4。数学方面，GeminiUltra在初等考试和竞赛级别问题集上表现出色，对于GSM8K（小学数学基准测试）而言，GeminiUltra在使用链式思考提示和自一致性的情况下达到了94.4％的准确性。编码方面，Gemini Ultra在HumanEval（标准代码完成基准测试）上正确实现了74.4％的问题，在新的Python代码生成任务的评估基准测试Natural2Code上，GeminiUltra取得74.9％的SOTA。根据谷歌Deepmind官网显示，由Gemini驱动的AI编程助手AlphaCode2实现了巨大改进，编程能力超过85%的人类参赛程序员，性能较前一代AlphaCode高出将近50%。图表3Gemini在文本领域的表现领先于现有大型语言模型资料来源：谷歌《Gemini:AFamilyofHighlyCapableMultimodalModels》，平安证券研究所 2）多模态领域，GeminiUltra在图像、视频、音频多项基准测试中同样实现超越GPT-4V。图像理解方面，无论是回答自然图像问题，进行扫描文档的文本识别，还是理解信息图表、图表和科学图解，GeminiUltra在多个任务上都取得了显著改进。在多模态多学科理解（MMMU）基准测试的六大学科（艺术与设计、商业、科学、健康医学、人文社科和技术工程）中，GeminiUltra均领先于GPT-4V。视频理解方面，GeminiUltra彰显了强大的时态推理能力，在各种少镜头（Few-shot）视频字幕任务和零镜头视频问答任务上取得了SOTA。音频理解方面，GeminiPro模型在英语和多语言测试集的所有自动语音识别（ASR）和自动语音翻译（AST）任务中都明显优于USM和Whisper模型，GeminiNano-1模型在除FLEURS以外的所有数据集上也优于USM和Whisper。图表4Gemini在多模态领域表现同样优异资料来源：谷歌DeepMind官网，平安证券研究所 3）除此之外，模态组合领域，Gemini彰显了处理多模态输入、跨模态推理的强大能力。谷歌通过煎鸡蛋的烹饪场景示例，展示了Gemini处理文本、视觉和音频交叉序列的能力以及跨模态推理能力。任务为输入来自用户的交错图像和音频，提供给Gemini制作煎蛋卷的指令，并要求Gemini检查是否完全煮熟。可以看到Gemini模型准确地回答了用户的问题，特别是在判断煎蛋卷是否煮熟的过程中展示了其对细节的敏感性，同时，我们也看到Gemini模型能够在不同模态之间实现高效的推理，并为用户提供了自然的交互体验。图表5谷歌通过煎蛋卷示例演示Gemini处理音频和图像交叉序列的能力资料来源：谷歌《Gemini:AFamilyofHighlyCapableMultimodalModels》，平安证券研究所二、算力优势稳固，发布新一代云端AI芯片TPUv5p 新一代CloudTPUv5p专为训练前沿AI模型设计。本次谷歌在发布Gemini的同时推出了全新的面向云端AI加速的TPUv5p，这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的TPU系统。谷歌于2016年起开始推出第一代TPU，TPU 是为神经网络设计的专用芯片、谷歌人工智能产品的核心，为谷歌搜索、YouTube、Gmail、谷歌地图、GooglePlay和Android等数十亿用户提供服务。谷歌表示，Gemini1.0采用TPUv4和v5e芯片上进行大规模训练，在TPU上Gemini的运行速度明显快于早期规模更小、性能更弱的模型，未来TPUv5p也会应用于加速Gemini开发。 TPUv5p性能较TPUv4全面提升。谷歌TPUv5p在bfloat16精度下，可以实现459teraFLOPS；在Int8精度下，可以实现918teraOPS。谷歌TPUv5p配备95GB的HBM3内存，内存带宽为2.76TB/sec，每个Pod最多有8960个加速核心，并自研搭载600GB/sec芯片互联主控，可以更快、更准确地训练AI模型。与TPUv4相比，TPUv5p的浮点运算性能大幅提升，在高带宽内存方面是TPUv4的近3倍。图表6谷歌TPU芯片参数比较图表7谷歌数据中心内部署CloudTPUv5p 资料来源：谷歌云官网，IT之家，平安证券研究所资料来源：谷歌官网，平安证券研究所 TPUv5p实现更快训练大模型，相对性能处于较高水平。谷歌表示在BF16精度下，训练OpenAI拥有1750亿参数的 GPT3，比此前的TPUv4AI加速器芯片快90%；如果在Int8精度下可以达到18

点击免费查看完整报告

你可能感兴趣

计算机行业动态跟踪报告：多模态能力表现亮眼，谷歌携Gemini王者归来

行业动态跟踪报告：谷歌Gemini大模型与AI算力展望

主要亮点：

行业与市场展望：

风险提示：

结论：

你可能感兴趣

计算机行业点评报告：谷歌开启Gemini时代，关注多模态和终端AI

谷歌Gemini大模型发布，原生多模态能力升级

传媒第48周观点：谷歌推出人工智能模型Gemini，关注多模态能力强化和应用迭代

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

【研选】被低估的血制品龙头，公司已回购总额近10亿元，分析师看其具备超50%古镇修复空间；谷歌发布Gemini，超强多模态能力提升基建投资预期，光模块迎来催化