您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:计算机:Google AI全家桶,打响大模型反击战 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机:Google AI全家桶,打响大模型反击战

信息技术2024-05-16陈涵泊、王思德邦证券匡***
AI智能总结
查看更多
计算机:Google AI全家桶,打响大模型反击战

事件:美国时间5月14日,谷歌举办2024年I/O开发者大会,AI成为绝对主角。 2小时主题演讲中,AI被提及了121次,涉及多款基础大模型更新亮相、AI Agent与多模态生成式AI发布、Gemini入局谷歌全产品线以及新一代硬件展出等事项。 谷歌进入Gemini时代,多款新模型更新亮相。今年I/O大会上,谷歌AI大模型已完成升级迭代,Gemini与Gemma性能进一步提升,逐步进入Gemini时代。 具体而言,谷歌更新Gemini 1.5 Pro的长文本能力至200万tokens,并引入了新的1.5Flash轻量版型号,面向端侧的Nano版本未来也将具备更强大的多模态能力。与此同时,开源模型Gemma升级至第二代并引入新的变体模型PaliGemma。 Astra对标GPT-4o,图像、音乐、视频多模态模型发布。谷歌推出AI Agent项目Astra模型,具备类似GPT-4o的能力,可以实现跨文本、音频、视频多模态实时推理。Astra和GPT-4o的使用效果类似,用户可以通过它和AI低延迟实时对话,以及视频聊天。此外,谷歌还升级发布了图像模型Imagen 3、音乐模型Music AI Sandbox、视频模型Veo。其中,Imagen 3是谷歌最高质量的文本到图像生成模型,它能生成细节丰富、栩栩如生的图像,视觉干扰明显少于之前的模型;Music AI Sandbox是与YouTube共同构建的AI音乐工具,可辅助音乐创作;Veo性能对标Sora,能够生成超过一分钟的高质量1080p视频,涵盖多种电影和视觉风格。 Gemini赋能谷歌全产品线,打造AI生产力工具集合。目前,已有超150万个开发者正在使用谷歌各种工具Gemini模型,利用它调试代码、获取新的见解并打造下一代AI应用。谷歌力图每个人都能从Gemini的功能中受益,不断将其突破性功能以强大的方式整合至自身产品体系中,其中包括搜索、Photos、Workspace和、NotebookLM安卓等产品中,为用户打造AI生产力工具集合,推动AI应用发展。 AI基础设施大升级,新一代TPU Trillium性能最强能效最高。与TPU v5e相比,Trillium的峰值计算性能提高4.7倍,HBM和带宽增加了1倍,芯片间互联(ICI)带宽增加了1倍,能效高出了67%以上,这主要系公司采取先进的液冷技术。除了TPU,谷歌还推出了CPU和GPU来支持任何工作负载。CPU方面,谷歌上个月宣布首款基于Arm定制的CPU Axion处理器,可提供业界领先的性能和能效; GPU方面,谷歌成为首批提供Nvidia尖端Blackwell GPU的Cloud提供商之一。 投资建议。我们认为,谷歌与OpenAI相互竞争一定程度上加快了大模型迭代进度,大模型赋能AI应用在谷歌方面有已充分体现,此外,TPU支撑大模型训练以及推理需求进一步印证了算力的重要性。建议关注AI多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;AI算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码;AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络;AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。 风险提示:AI技术迭代不及预期、产品落地不及预期、AI伦理风险等。 事件:美国时间5月14日,谷歌举办2024年I/O开发者大会,AI成为绝对主角。在2小时主题演讲中,AI被提及了121次,涉及多款基础大模型更新亮相、AI Agent与多模态生成式AI发布、Gemini入局谷歌全产品线以及新一代硬件展出等事项。 1.谷歌进入Gemini时代,多款新模型更新亮相 在2023年谷歌I/O大会上,谷歌首次分享了Gemini计划:一开始就构建原生多模态模型,能够跨文本、图像、视频、代码等多种数据类型进行推理。自此,谷歌在2023年12月发布Gemini 1.0,今年2月升级的Gemini 1.5 Pro上下文长度可达100万tokens,4月在模型中加入音频理解、系统指令、JSON模型等功能。此外,在开源的道路上,谷歌今年2月份推出2B、7B轻量级开源模型Gemma,该模型采用与创建Gemini模型相同的研究和技术构建,并在4月份推出了Gemma的变体模型CodeGemma和RecurrentGemma。 今年I/O大会上,谷歌AI大模型已完成升级迭代,Gemini与Gemma性能进一步提升,逐步进入Gemini时代。具体而言,谷歌更新了Gemini 1.5 Pro的长文本能力,并引入了新的1.5Flash轻量版型号,与此同时,Gemma也升级至第二代并引入新的变体模型PaliGemma。 1)Gemini 1.5 Pro进阶版,实现200万tokens上下文,具备更强大的推理与理解能力。下个月Gemini 1.5 Pro还将在API层面推出新功能,包括视频输入、并行函数调用和文本缓存,以提高处理多个请求和问答文件时的效率。 上下文:过往Gemini 1.5 Pro支持100万tokens上下文,升级后可支持200万tokens,意味着可输入分析2小时视频、22小时音频、超过6万行代码或者140多万单词。这使得Gemini 1.5 Pro能处理更大量的复杂信息,生成更准确、更细致的输出。 更强的性能:通过数据和算法改进,升级版的Gemini 1.5 Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。此外,Gemini 1.5 Pro还能够遵循越来越复杂和细微的指示,包括指定产品级行为的指示,如角色、格式和风格等。 定价方面:输入7美元/百万tokens,而对于128K的上下文长度输入,价格仅为3.5美元/百万tokens。 推出时间:目前Gemini 1.5 Pro已经优先提供给Gemini Advanced订阅用户使用,支持超过150个国家的35种语言。Gemini1.5 Pro已推出公共预览版,可在Google AI Studio和Vertex AI中提供100万tokens上下文窗口,且可通过候补名单向使用API的开发人员和Google Cloud客户提供了200万tokens上下文窗口。 图1:升级后的Gemini 1.5 Pro上下文窗口可达200万tokens 图2:Gemini 1.5 Pro输入价格为7美元/百万tokens 图3:对于128K上下文1.5Pro输入价格为3.5美元/百万tokens 2)Gemini 1.5 Flash是为了满足用户对低延迟和低成本的需求而产生的轻量化模型。1.5 Flash为Gemini家族的新成员,也是API中速度最快的Gemini模型。它针对大规模、大批量、高频的任务进行了优化,服务更具有成本效益,且依旧具有多模态推理能力和突破的上下文窗口。 上下文:尽管1.5 Flash体积小巧,仍实现了100万tokens的长上下文窗口,开发人员还能注册尝试200万tokens。 性能与支持手段:Gemini 1.5 Flash在跨大量信息的多模态推理方面表现出色,适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等多种任务。这种强大性能来源于“蒸馏”技术,该技术将1.5 Pro中最重要的知识和技能转移到更小、更高效的模型中。 定价:128K上下文窗口输入为0.35美元/百万tokens。 推出时间:目前,超过200个国家的用户都可以在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。 图4:Gemini 1.5 Flash为轻量化高性能模型 图5:1.5 Flash在128K上下文输入价格为0.35美元/百万tokens 3)开源大模型Gemma升级至第二代,参数从第一代2B、7B的提升至27B,预计今年6月份发布。Gemma 2采用全新架构,旨在实现突破性的性能和效率,它的性能优于一些尺寸超过其两倍的模型,并且可以在GPU或Vertex AI中的单个TPU主机上高效运行 。此外 ,Gemma推出第一个视觉语言开源模型PaliGemma,并针对图像字幕、视觉问答和其他图像标记任务进行了优化。 图6:Gemma 2参数规模27B,可在GPU或单个TPU上高效运行 4)此外,Gemini家族中的Nano版本正在从纯文本输入扩展至图像,未来将具有多模态能力。从Pixel开始,使用具有多模态功能的Gemini Nano的应用程序将能够像人们一样理解世界——它可以处理文本、图像、音频和语音,在保证存储在设备上的信息私密性的同时解锁新的体验。 图7:Gemini Nano未来将支持文本、图像、音频和语音 2.Astra对标GPT-4o,图像、音乐、视频多模态模型发布 在谷歌发布会的前一日,OpenAI发布最新的旗舰型号大模型GPT-4o,不仅提供与GPT-4同等的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。其中,GPT-4o最大的亮点是可以实现即时语音对话以及具备先进的视觉和音频理解能力,能够智能感知语气与语态。 谷歌推出AI Agent项目Astra模型,具备类似GPT-4o的能力,可以实现跨文本、音频、视频多模态实时推理。Astra和GPT-4o的使用效果类似,用户可以通过它和AI实时对话,以及视频聊天。在发布会上,工作人员在演示视频中将手机镜头对准身边的物品,并向Project Astra提出一些疑问,它几乎能做到零延时地准确回答。 此外,谷歌还发布了基于Gemini的对话式体验产品Gemini Live,它允许用户在智能手机上与Gemini进行“深入”的语音聊天,用来对标GPT-4o。用户可以在聊天机器人说话时打断Gemini提出澄清问题,它将实时适应用户的语音模式。此外,Gemini还可以通过智能手机摄像头捕捉的照片或视频看到并回应用户的周围环境。 图8:工作人员使用手机与Astra互动 图9:工作人员佩戴眼镜后与Astra互动 AI Agent具有广泛用途,具体来看:1)健康管理与医疗咨询:AI健康代理助手可以通过分析用户输入的症状、健康记录和生活习惯,提供个性化的健康建议和早期疾病预警;2)客户服务自动化:AI代理可以集成在客服系统中,提供7*24小时无间断服务。能够理解和回应用户查询,提供账户信息、解决常见问题、处理交易等;3)个性化学习辅导:AI学习代理可以根据学生的学习进度、兴趣和难点定制个性化学习计划。 图10:Astra在生活中拥有广泛用途 此外,谷歌还分别在图像、音乐和视频领域分别推出Imagen 3、Music AI Sandbox、Veo多模态大模型。 Imagen 3是谷歌最高质量的文本到图像生成模型。据硅星人Pro微信公众号,它能生成细节丰富、栩栩如生的图像,视觉干扰明显少于之前的模型。并且能更好地理解自然语言和提示背后的意图,结合长提示中的细微细节,掌握多种风格。它还是迄今为止Google最好的文字渲染模型,使生成个性化生日祝福和演示文稿标题页成为可能。 开放时间:目前,Imagen 3将作为ImageFX中的私人预览提供给特定创作者,用户可以注册加入候补名单。很快,Imagen 3也将在Vertex AI上提供。 图11:Imagen 3生成图片细节更丰富 图12:Imagen 3对文字理解更准确 Music AI Sandbox是与YouTube共同构建的AI音乐工具,可以从头开始创建新的乐器