事项: 北美时间12月6日谷歌(纳斯达克上市,代码GOOGL.O)发布其最新大语言模型Gemini。Gemini有望成为首个在手机上直接运行的大模型,应用于谷歌Pixel 8 Pro智能手机和聊天机器人Bard。北京时间12月7日,AMD(纳斯达克上市,代码AMD.O)在AdvancingAI大会上正式发布两块旗舰产品,InstinctMI300X与MI300A。 国信通信观点: 谷歌Gemini模型采用了原生多模态定义,相较于之前的大模型版本有了明显升级,可以归纳、理解、操作以及组合不同类型的信息,成为继OPEN AI的ChatGPT之后第二个呈现出类似能力的大模型,表明AI大模型进展再加速。谷歌在大模型训练部分采用自研芯片TPU和自研光交换技术OCS进行互联,测算下来TPU:光模块比例=1:1.5。 芯片环节,AMD发布了同样可以在AI领域进行模型训练和推理的MI300系列产品,表明在GPU领域,芯片选择不断增加,有望打破英伟达独家领先优势以及降低GPU采购成本,满足行业多样化需求,进而推动应用层面进展加速。 投资建议:谷歌Gemini模型发布和AMDGPU芯片的发布都有利于推动AI行业进展,从硬件基础设施环节到应用层面,二者互相迭代升级推动行业需求向上发展,在硬件环节,谷歌创新性采用OCS技术,在交换机层面选择了全光设计,增加了光器件使用。建议重点关注:光器件环节【天孚通信(创业板上市,300394.SZ)】、【光库科技(创业板上市,300620.SZ)】、【博创科技(创业板上市,300548.SZ)】等。 风险提示:AI进展不及预期;硬件环节(服务器、交换机、光模块)迭代不及预期。 评论: 谷歌发布Gemini模型,大模型进展再加速 北美时间12月6日,谷歌在官网宣布Gemini1.0正式上线。Gemini是一款新型的多模态大语言模型,此前多模态大模型在处理视频、文字、图像等多维度输入信息时是采用分别训练分别输出再进行拼接的方式,这种方式的缺点在于面对复杂逻辑问题时,大模型的回复略显迟钝。Gemini采用了全新的训练方式,直接在多模态数据上进行预训练,并利用额外的多模态数据进行微调,因而可在处理复杂逻辑问题上更加智能。 Gemini模型一共包括三个版本,可以在不同设备上进行使用。 1)GeminiNano—端侧设备上最高效的模型。这款模型专为智能手机设计,可以在没有连接外部服务器的情况下完成AI处理任务,目前已集成在谷歌的Pixel8Pro手机当中,可支持录音应用中的“总结文本”功能,Gboard“智能回复”功能。预计从WhatsApp开始,明年还将扩展到更多应用。 2)Gemini Pro—运行在谷歌数据中心。Pro版本将在最新版本的AI聊天机器人Bard提供支持,是Bard推出以来的最大升级。目前为170多个国家和地区提供英语服务,计划未来几个月内支持新的语言和地区,并应用于搜索、广告、Chrome和DuetAI等更多谷歌产品。 3)GeminiUltra—规模最大且功能最强大的模型,专用于高度复杂的任务,会在完成当前测试阶段后的明年初向开发者和企业客户提供。届时还会推出基于Gemini Ultra的BardAdvanced更新版本。 图1:Gemini模型具有三个版本 Gemini模型训练基于谷歌自研TPU芯片,发布TPU v5P,性能全部升级。谷歌较早就开始布局AI市场,2015年便发布了专门用于AI领域的专用芯片TPUv1,2015年至今,谷歌已经完成了五个版本的迭代。目前现阶段谷歌展示的Gemini 1.0模型就是基于TPUv4和TPUv5e两类芯片来完成训练过程。 在发布Gemini模型的同时,谷歌发布了最新的TPUv5p系列。v5p进一步增强了方案可拓展性,并为了应对复杂模型的推理训练与调整需求,设计了新的硬件架构。在v5p构建的集群,每个Pod计算单元由8960颗芯片互联,数量较之前的版本翻倍。计算性能上,新的pod浮点运算能力相比v4提升了两倍,训练速度相比v4提升2.8倍以上。 图2:谷歌数据中心内的TPUv5p 谷歌TPU:创新网络拓扑结构,采用光交换技术(OCS)。传统数据中心网络结构为leaf-spine叶脊架构,英伟达AI集群采用的是无收敛胖拓扑结构,谷歌的AI网络集群在spine层进行创新,用OCS交换机(光路开关,opticalcircuitswitch)代替传统的电交换机(以太网交换机)。传统数据中心在spine层需要进行大量的电光转换,会产生较多的功耗,并且随着数据量增加spine层每2-3年都需要进行更换。 谷歌的OCS的目的是替代当下的电网络交换机,从而实现近一步成本和功耗的降低。 图3:传统数据中心(左)与谷歌(右)数据中心结构对比 谷歌的OCS称为为Palomar,内部结构为:输入输出为光纤准直器阵列,光纤准直器包括光纤阵列和微透镜阵列,输入和数据均为136个通道(128个端口+8个备用端口)。当光通过光纤进入OCS系统后,会通过两个2D的MEMS阵列,每个MEMS阵列含有136个平面镜,用于调整光的传播方向。波长为 850nm 。 图4:谷歌OCS工作原理 谷歌AI网络结构拆解:TPU v4为例。在TPUv4网络结构设计时候,每个基础单元是4*4*4=64颗TPU组成,每个面有16个链路,因此每个单元一共有16*6=96个链路连接到OCS的光链路.此外因为提供3D环面的环绕链接,相对侧的链接必须连接到同一个OCS。因此,每个基础单元需要6×16/2=48个OCS。 图5:谷歌TPUv4网络集群结构(示意图) 谷歌TPUv4支持4096颗TPU互联,具体方案为一共使用64个机柜,每个机柜内部构建4*4*4=64颗TPU的3D网络结构,其中3D结构的外表部分连接到OCS,中间部分采用无源电缆互联。在4096颗TPU互联的系统中一共使用48了个OCS,每个OCS128个端口。此外因为OCS本身直接进行光信号的传输,所以每个端口只需要1个光模块。因为该集群需要48*128=6144个光模块。 TPU:光模块用量=4096:6144=1:1.5 图6:谷歌TPUv4机柜集群(示意图) AMD发布两款AI芯片旗舰产品,对标英伟达H100,并上调市场规模预测。 北京时间12月7日,AMD在Advancing AI大会上正式发布两块旗舰产品,Instinct MI300X与MI300A,其中MI300X是用于AI训练数据中心GPU,对标英伟达H100;MI300A是为超级计算机设计的APU产品。APU是AMD在2011年提出的定义,是一款集成CPU和GPU的产品。 MI300X对标英伟达H100。MI300X由台积电代工,基于自研的第三代CDNA架构,集成了1530亿个晶体管。 对比英伟达H100,集成了800亿个晶体管。在性能指标上:1)AI芯片算力:8位精度浮点数(FP8)计算水平来看,MI300X为42petaFLOPs(每秒千万亿次浮点运算),H100则为32petaFLOPs;2)内存:MI300X为192GB,英伟达H109为120GB。目前,集合8张MI300X的Instinct工作台已经可以支持运行Llama2(700亿参数)、BLOOM(1760亿参数)大模型的训练与推理。 目前,MI300X已经实现量产出货,并获得了多家OEM厂商和解决方案厂商的支持,包括HPE、戴尔、联想、超微、技嘉等。 图7:AMDMI300X 图8:MI300X和H100性能对比 MI300A:首款高性能APU。具体参数上,MI300A具有228个CDNA3架构的计算核心,24个Zen4架构的X86核心,4个I/ODIe,8个HBM3,128GB显存,5.3TB峰值带宽,256MB的Infinity缓存,采用3.5D的封装形式。 目前,MI300A正规模量产,MI300A的OEM和方案合作伙伴包括HPE、Eviden、技嘉、超微等。 图9:AMDMI300A AMD芯片发布,GPU市场竞争加剧,推动成本下降,应用加速。此前,在AI硬件市场尤其是GPU环节,英伟达保持了明显领先地位,但其产品售价较高。AMD的产品发布一方面证明在GPU环节上,除了英伟达之外,其他厂商也在加速追赶,竞争加剧有望降低GPU市场平均售价;另一方面,随着GPU层面采购成本的下降,基于GPU等硬件基础设施搭建的AI应用端也有望迎来加速发展。 AMD:上调AI数据中心芯片市场规模预测。2023年6月在美国旧金山举办的“数据中心和人工智能技术首映式”活动上,AMD预计,来自CPU、GPU、FPGA以及其他AI数据中心业务将推动市场规模从2023年的300亿美元增加到2027年的1500亿美元,年均复合增长率超过50%。此次活动现场,AMD修正了这一预判,即市场规模将从今年的450亿美元,增加到2023年的4000亿美元,年均复合增长率超过70%。 图10:AMD对于AI数据业务市场规模预测 投资建议: 谷歌Gemini模型发布和AMDGPU芯片的发布都有利于推动AI行业进展,从硬件基础设施环节到应用层面,二者互相迭代升级推动行业需求向上发展,在硬件环节,谷歌创新性采用OCS技术,在交换机层面选择了全光设计,增加了光器件使用。建议重点关注:光器件环节【天孚通信(创业板上市,300394.SZ)】、【光库科技(创业板上市,300620.SZ)】、【博创科技(创业板上市,300548.SZ)】等。 表1:重点公司盈利预测与估值 风险提示:AI进展不及预期;硬件环节(服务器、交换机、光模块)迭代不及预期。