您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[平安证券]:计算机行业动态跟踪报告:多模态能力表现亮眼,谷歌携Gemini王者归来 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业动态跟踪报告:多模态能力表现亮眼,谷歌携Gemini王者归来

信息技术2023-12-07闫磊、付强、黄韦涵平安证券郭***
AI智能总结
查看更多
计算机行业动态跟踪报告:多模态能力表现亮眼,谷歌携Gemini王者归来

行业动态跟踪报告 计算机 2023年12月07日 多模态能力表现亮眼,谷歌携Gemini王者归来 强于大市(维持) 行情走势图 相关研究报告 【平安证券】行业点评*计算机*OpenAI发布GPT-4Turbo,推出GPTStore完善大模型应用生态*强于大市20231107 【平安证券】行业点评*计算机*微软正式发布Office 365Copilot的定价,大模型提高客单价的逻辑进一步被验证*强于大市20230720 【平安证券】行业点评*计算机*《生成式人工智能服务管理暂行办法》发布,我国大模型商用浪潮即将开启*强于大市20230714 证券分析师 闫磊投资咨询资格编号 S1060517070006 YANLEI511@pingan.com.cn 付强投资咨询资格编号 S1060520070001 FUQIANG021@pingan.com.cn 黄韦涵投资咨询资格编号 S1060523070003 HUANGWEIHAN235@pingan.com.cn 事项: 当地时间12月6日,谷歌公司宣布推出其规模最大、功能最强的多模态大模型Gemini,其最强大的TPU(张量处理单元)系统“CloudTPUv5p”,以及来自谷歌云的人工智能超级计算机。 平安观点: Gemini大模型主打多模态,性能对标GPT-4。本次谷歌推出的多模态大 模型Gemini依然采用Transformer架构,采用高效Attention机制,支持32k的上下文长度,1.0家族涵盖Ultra、Pro、Nano三类模型,各有定位。Gemini主打在多模态领域的突出能力:1)文本领域,GeminiUltra在多项基准测试中领先于GPT-4,并成为现有第一个在大规模多任务语言理解 (MMLU)方面超越人类专家的模型。2)多模态领域,GeminiUltra在图像、视频、音频多项基准测试中同样实现超越GPT-4V。3)此外模态组合领域,Gemini还展示了处理多模态输入、跨模态推理的强大能力。结合此前市场传闻谷歌将延迟发布Gemini,我们认为本次无论是Gemini如期发布,还是其超越有力竞争对手的多模态能力,总体超出市场预期。 算力优势稳固,发布新一代云端AI芯片TPUv5p。本次谷歌在发布Gemini的同时推出了全新的面向云端AI加速的TPUv5p,这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的TPU系统。谷歌表示,Gemini1.0 采用TPUv4和v5e芯片上进行大规模训练,在TPU上Gemini的运行速度明显快于早期规模更小、性能更弱的模型,新一代CloudTPUv5p专为训练前沿AI模型设计,未来TPUv5p也会应用于加速Gemini开发。TPUv5p性能较TPUv4全面提升,并能实现更快地训练大模型。 背靠谷歌生态帝国,Gemini商业化想象空间广阔。从大模型应用端来看,相较OpenAI,谷歌的商业版图更为广阔,Gemini系列规模和功能强大, 预计将快速融入谷歌生态,未来商业模式拥有极大的想象空间。内部生态融合计划来看,谷歌表示,从发布日起,Gemini可开始应用于Bard和Pixel8Pro智能手机,并将很快与谷歌服务中的其他产品集成,包括Chrome、搜索和广告等。外部用户开放情况来看,谷歌计划通过谷歌云将Gemini授权给客户,12月13日开始,开发者和企业客户可以访问GeminiPro,安卓开发人员可以使用GeminiNano完成构建。 行业报 告 行业动态跟踪报 告 证券研究报告 投资建议:全球巨头角逐愈演愈烈,继续看好AI算力需求增长和应用场景拓宽。谷歌作为全球人工智能龙头之一,无论在算力、算法还是商业化各个方面都积蓄了优势,Gemini系列大模型的如期推出,打破此前市场关于延期发布的传闻,同时Gemini系列在传统文本领域以及多模态领域能力均对标GPT-4,总体超出市场预期。我们可以看到人工智能巨头在大模型领域的竞 争依然白热化,在此背景下继续看好AI算力需求的增长,同时,当下对于多模态AI的激烈角逐也将持续拔升大模型的整体能力水平,有助于不断拓展大模型的应用场景和边界,想象空间广阔。当前,我国通用人工智能产业政策逐步完善,国产大模型能力持续升级。美国对华半导体出口管制升级,将倒逼我国国产AI芯片产业链加快成熟。随着国产大模型厂商和AI芯片厂商的持续发力,我国AIGC产业未来发展前景广阔。在标的方面:1)算力方面,推荐海光信息、中科曙光、紫光股份、浪潮信息、龙芯中科,建议关注神州数码、寒武纪、景嘉微;2)算法方面,推荐科大讯飞;3)应用场景方面,推荐金山办公,建议关注万兴科技、拓尔思;4)网络安全方面,强烈推荐启明星辰。 风险提示:1)国内大模型算法发展可能不及预期。2)AI算力供应链风险上升。3)大模型产品的应用落地低于预期。 一、Gemini大模型主打多模态,性能对标GPT-4 Gemini主打多模态能力。本次谷歌推出的多模态大模型Gemini依然采用Transformer架构,采用高效Attention机制,支 持32k的上下文长度。Gemini主打在多模态领域的突出能力,在输入端,Gemini可以适应文本与音视频交叉的输入序列,比如自然图像、图表、截图、pdf和视频等,在输出端,Gemini兼具文本和图像两种输出形式。与市面上大模型不同的地方在于,Gemini从设计之初开始就是多模态的,并不像OpenAI构建DALL·E和Whisper单独训练图像和语音模型。 图表1Gemini主打多模态能力:输入支持交叉序列,输出支持文本和图像 资料来源:谷歌《Gemini:AFamilyofHighlyCapableMultimodalModels》,平安证券研究所 Gemini1.0家族涵盖三类模型,各有定位。1)GeminiUltra:用于高度复杂的任务,为规模最大、功能最强的类别,定位为GPT-4的竞争对手;2)GeminiPro:是一款中端型号,用于增强性能和大规模部署能力,根据谷歌技术报告,其性能优于GPT-3.5;3)GeminiNano:主要用于特定任务和移动设备。 图表2Gemini1.0家族涵盖Ultra、Pro、Nano三类模型 资料来源:谷歌DeepMind官网,平安证券研究所 模型能力方面,Gemini系列在文本、多模态、模态组合等领域均实现了较大进展,在绝大多数基准测试中性能领先于GPT-4。 1)文本领域,GeminiUltra在多项基准测试中领先于GPT-4,并成为现有第一个在大规模多任务语言理解(MMLU)方面超越人类专家的模型。在谷歌技术报告中,公司将Gemini与GPT-4以及此前谷歌最强的语言大模型PaLM2等等进行了比 较,在大型语言模型(LLM)研发中使用的32个广泛使用的学术基准中,GeminiUltra的性能有30个超过了当前最先进的结果(SOTA,StateOfTheArt),全面领先于GPT-4。MMLU方面,GeminiUltra同样优于所有现有模型,达到90.04%的准确率。MMLU基准测试综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试大模型世界知识和解决问 题的能力,人类专家表现作为基准被衡量为89.8%。根据公司介绍,GeminiUltra被证明是第一个超过人类专家基准的模型,此前最先进的公开结果来自GPT-4。数学方面,GeminiUltra在初等考试和竞赛级别问题集上表现出色,对于GSM8K(小学数学基准测试)而言,GeminiUltra在使用链式思考提示和自一致性的情况下达到了94.4%的准确性。编码方面,Gemini Ultra在HumanEval(标准代码完成基准测试)上正确实现了74.4%的问题,在新的Python代码生成任务的评估基准测试Natural2Code上,GeminiUltra取得74.9%的SOTA。根据谷歌Deepmind官网显示,由Gemini驱动的AI编程助手AlphaCode2实现了巨大改进,编程能力超过85%的人类参赛程序员,性能较前一代AlphaCode高出将近50%。 图表3Gemini在文本领域的表现领先于现有大型语言模型 资料来源:谷歌《Gemini:AFamilyofHighlyCapableMultimodalModels》,平安证券研究所 2)多模态领域,GeminiUltra在图像、视频、音频多项基准测试中同样实现超越GPT-4V。图像理解方面,无论是回答自然图像问题,进行扫描文档的文本识别,还是理解信息图表、图表和科学图解,GeminiUltra在多个任务上都取得了显著改 进。在多模态多学科理解(MMMU)基准测试的六大学科(艺术与设计、商业、科学、健康医学、人文社科和技术工程)中,GeminiUltra均领先于GPT-4V。视频理解方面,GeminiUltra彰显了强大的时态推理能力,在各种少镜头(Few-shot)视频字幕任务和零镜头视频问答任务上取得了SOTA。音频理解方面,GeminiPro模型在英语和多语言测试集的所有自动语 音识别(ASR)和自动语音翻译(AST)任务中都明显优于USM和Whisper模型,GeminiNano-1模型在除FLEURS以外的所有数据集上也优于USM和Whisper。 图表4Gemini在多模态领域表现同样优异 资料来源:谷歌DeepMind官网,平安证券研究所 3)除此之外,模态组合领域,Gemini彰显了处理多模态输入、跨模态推理的强大能力。谷歌通过煎鸡蛋的烹饪场景示例,展示了Gemini处理文本、视觉和音频交叉序列的能力以及跨模态推理能力。任务为输入来自用户的交错图像和音频,提供给Gemini制作煎蛋卷的指令,并要求Gemini检查是否完全煮熟。可以看到Gemini模型准确地回答了用户的问题,特别是在判断煎蛋卷是否煮熟的过程中展示了其对细节的敏感性,同时,我们也看到Gemini模型能够在不同模态之间实现高效的 推理,并为用户提供了自然的交互体验。 图表5谷歌通过煎蛋卷示例演示Gemini处理音频和图像交叉序列的能力 资料来源:谷歌《Gemini:AFamilyofHighlyCapableMultimodalModels》,平安证券研究所 二、算力优势稳固,发布新一代云端AI芯片TPUv5p 新一代CloudTPUv5p专为训练前沿AI模型设计。本次谷歌在发布Gemini的同时推出了全新的面向云端AI加速的TPUv5p,这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的TPU系统。谷歌于2016年起开始推出第一代TPU,TPU 是为神经网络设计的专用芯片、谷歌人工智能产品的核心,为谷歌搜索、YouTube、Gmail、谷歌地图、GooglePlay和Android等数十亿用户提供服务。谷歌表示,Gemini1.0采用TPUv4和v5e芯片上进行大规模训练,在TPU上Gemini的运行速度明显快于早期规模更小、性能更弱的模型,未来TPUv5p也会应用于加速Gemini开发。 TPUv5p性能较TPUv4全面提升。谷歌TPUv5p在bfloat16精度下,可以实现459teraFLOPS;在Int8精度下,可以实现918teraOPS。谷歌TPUv5p配备95GB的HBM3内存,内存带宽为2.76TB/sec,每个Pod最多有8960个加速核心,并自研搭载600GB/sec芯片互联主控,可以更快、更准确地训练AI模型。与TPUv4相比,TPUv5p的浮点运 算性能大幅提升,在高带宽内存方面是TPUv4的近3倍。 图表6谷歌TPU芯片参数比较图表7谷歌数据中心内部署CloudTPUv5p 资料来源:谷歌云官网,IT之家,平安证券研究所资料来源:谷歌官网,平安证券研究所 TPUv5p实现更快训练大模型,相对性能处于较高水平。谷歌表示在BF16精度下,训练OpenAI拥有1750亿参数的 GPT3,比此前的TPUv4AI加速器芯片快90%;如果在Int8精度下可以达到18