证券分析师:联系人:联系人:联系人: 叶子詹浏洋李书颖连欣然 0755-81982153 010-88005307 0755-81982362 010-88005482 yezi3@guosen.com.cn zhanliuyang@guosen.com.cn lishuying@guosen.com.cn lianxinran@guosen.com.cn 执证编码:S0980522100003 事项: 12月7日,谷歌推出原生多模态大模型Gemini 1.0,是谷歌迄今为止规模最大、能力最强的大模型;同时推出全新的面向云端AI加速的TPUv5p,是谷歌迄今为止功能最强大、可扩展性最强的AI加速芯片。 国信电子观点:1)谷歌推出最新AI加速芯片TPUv5p,大范围部署OCS(光电路交换机),其超级计算机通过OCS交换机可以轻松地动态重新配置芯片之间的连接,有助于避免出现问题并实时调整以提高性能。 我们认为OCS交换机将来带数据中心网络架构的重大变革,从而降低功耗和成本。 2)谷歌OCS交换机输入输出端口是两个光纤准直器阵列,当光通过光纤进入OCS交换机后,会先后经过两个2DMEMS阵列,每个阵列含有136个平面镜,用于精确调节光的传播方向。MEMS光开关是基于半导体微细加工技术构筑在半导体基片上的微镜,即将电、机械和光集成为一块芯片,可以完成对多路光波路由的任意切换。谷歌OCS交换机核心在于MEMS反射镜组件,我们预计MEMS光开关将迎来强劲需求。 3)赛微电子在MEMS代工领域处于龙头地位,公司境外MEMS产线的硅光子芯片制造技术较为成熟,已具备工艺开发及小批量生产经验,已向欧美知名厂商长期供货,预计公司将在MEMS光开关、硅光芯片等领域广泛布局和快速发展。 4)考虑到公司瑞典产线的全球领先地位,以及北京产线的规模化生产优势,结合三季度财报数据表现,以及公司BAW滤波器和激光雷达MEMS振镜等新品的量产进度,我们上调公司业绩预期,预计2023-2025年营业收入13.22/16.88/20.72亿元(前值9.90/13.96/17.85亿元),归母净利润0.37/1.27/2.06亿元(前值0.33/0.87/1.42亿元),当前股价对应PB分别为3.57/3.48/3.35,维持“买入”评级。 评论: 谷歌发布多模态大模型Gemini性能领先,推出全新AI加速芯片TPUv5p为模型提供支持 12月7日,谷歌推出原生多模态大模型Gemini 1.0,是谷歌迄今为止规模最大、能力最强的大模型,并且提供三种量级版本:能力最强的Gemini Ultra、适用于多任务的Gemini Pro以及适用于特定任务和端侧的GeminiNano。作为多模态大模型,Gemini可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频等。 GeminiUltra是规模最大、功能最强大的模型,专为高度复杂任务所设计。根据谷歌DeepMind团队测试,GeminiUltra在一系列多模态基准测试中取得领先成绩,其中在MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)测试中得分率高达90.0%,成为首个超越人类专家的大模型(人类专家得分率89.8%),并超越OpenAI所开发的GPT-4模型(GPT-4得分率86.4%)。 图1:部分GeminiUltra测试成绩及与GPT-4对比 谷歌Gemini1.0大模型由谷歌自研的TPUv4和v5eAI芯片训练而成。TPU(Tensor ProcessingUnit,张量处理器)是谷歌为机器学习定制的专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC),专为谷歌的深度学习框架TensorFlow而设计。与GPU相比,TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低功耗和加快运算,同时使用脉动阵列等设计优化矩阵乘法与卷积运算。目前,谷歌已在YouTube、Gmail、GoogleMaps、GooglePlay和Android等产品服务中使用TPU芯片。 12月7日,谷歌在发布Gemini的同时,推出了全新的面向云端AI加速的TPUv5p。据谷歌数据,每个TPU v5p配备95GB的HBM3内存,内存带宽为2765GB/s,每个Pod由多达8960个芯片组成,使用最高带宽的芯片间连接(每芯片4800Gb/s)进行互联,可以更快、更准确地训练AI模型。性能方面,TPUv5p在Bf16(16位浮点数)精度下提供459TFLOPs性能(每秒执行459万亿次浮点运算),在Int8(8位整数)精度下提供918TOPs性能(每秒执行918万亿次整数运算)。 图2:谷歌推出最新版本TPUv5p 图3:谷歌TPUv5p与前代产品参数对比 TPUv5p是谷歌迄今为止功能最强大、可扩展性最强、最灵活、最具成本效益的AI加速芯片,为训练前沿AI模型提供支持。与TPU v4相比,TPU v5p具有约两倍的浮点运算性能和约三倍的高内存带宽提升。据谷歌数据,同样对参数量为1750亿的GPT-3模型进行训练,在Bf16精度下TPU v5p训练速度是TPU v4(Bf16精度)的1.9倍,在Int8精度下训练速度是TPUv4(Bf16精度)的2.8倍。此外,TPUv5p运行费用为4.20美元/小时,较TPUv4的3.22美元/小时和TPUv5e的1.20美元/小时略高。 图4:TPUv5p与前代产品针对GPT-3模型训练速度对比 图5:TPUv5p与前代产品针对GPT-3模型训练成本对比 谷歌Apollo项目TPU超级计算机部署OCS交换机,MEMS光开关是核心组件 2023年3月,在OFC2023(2023年美国光纤通讯博览会)上,谷歌详细介绍了其内部项目Apollo。该项目在其数据中心大范围部署光电路交换机(Optical Circuit Switch,OCS),带来数据中心网络架构的重大变革。 传统数据中心网络采用脊叶(Spine-leaf)结构,其中SP(Spine,脊)层主要是电网络交换机(Electronic PacketSwitch,EPS)。SP层与每一个AB(AggregationBlock,汇聚)层相连,AB层与TOR(TopofRack)交换机相连。由于传统架构中信号经过SP层进行多次电信号和光信号的转换,因此会产生较大的功耗,同时增加数据的延迟。 谷歌Apollo项目将EPS替换为OCS交换机,开发了一种非阻塞的136x136光路开关,其目的是降低功耗和成本;与无线带宽技术(Infiniband)相比,OCS交换机成本不到系统成本的5%,功率不到系统功率的3%。同时在AI大模型快速发展的背景下,OCS交换机可以动态配置计算芯片间的连接关系,构建更好的大型算力网络对AI大模型的发展具有重大的意义。 图6:传统数据中心网络与采用OCS交换机的Apollo项目结构示意图 谷歌OCS交换机名为Palomar,输入输出端口是两个光纤准直器阵列(Fiber collimatorarray),包括光纤阵列和微透镜阵列,输入输出均为136个通道。当光通过光纤进入OCS交换机后,会先后经过两个2D MEMS阵列,每个阵列含有136个平面镜,用于精确调节光的传播方向。此外,系统中还包括两组监控通道,使用 850nm 波长的光,经过MEMS阵列反射后进入到监控相机处,通过图像处理来反馈控制MEMS阵列,从而优化链路插损。 光开关(OpticalSwitch)是在一定范围内将光信号从一个光通道转换成另一个光通道的器件,具有一个或多个可选择的传输窗口,可对光传输线路或集成光路中的光信号进行相互转换或逻辑操作,是实现光交叉连接、光分插复用、网络监控以及光保护等功能的核心器件。Palomar可实现136个光路间的任意切换,信号可以双向传播,其核心在于MEMS反射镜组件,因此谷歌在其数据中心内大范围部署MEMS光开关。 MEMS光开关是基于半导体微细加工技术构筑在半导体基片上的微镜,即将电、机械和光集成为一块芯片。 MEMS光开关系统可以完成对多路光波路由的任意切换,其基本原理为通过发送控制指令给MEMS控制板上的单片机,控制MEMS光开关内部镜片的相应动作,使可以活动的微镜产生旋转,改变输入光的传播方向以实现光路切换,从而完成光路的交叉连接而无需进行任何光电转换。MEMS光开关的插入损耗低,串扰低,与速率和调制方式无关,具有功耗低,寿命长等特点。 图7:谷歌PalomarOCS交换机实物图及原理示意图 谷歌推出TPUv5pAI芯片,进一步强化了OCS光交换技术的应用。2023年4月,谷歌发布论文《TPUv4:AnOptically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》(《TPUv4:具有嵌入式硬件支持的机器学习光学可重构超级计算机》),详细介绍了通过OCS交换机能够让超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免出现问题并实时调整以提高性能。 TPUv4超级计算机的基本构造由4x4x4的TPU v4 Cube(立方体)组成。64个TPU芯片形成一个Cube,内部的TPU之间通过电缆链接,最外侧的6个面上的TPU与OCS交换机相连,每个面有16条链路,每个Cube共有96条光链路连接到OCS交换机上。为了提供三维环面的环绕链接,相对两侧的链接必须连接到相同的OCS交换机上,因此每个Cube连接到48个OCS交换机上。由于谷歌PalomarOCS交换机为136x136端口(128个端口加上8个用于链路测试和修复的备用端口),因此48个OCS交换机能够链接来自64个4x4x4Cube的48对线缆,总共并联4096个TPUv4芯片,形成一个大型超算系统。 图8:64个TPU芯片形成4x4x4Cube 图9:4x4x4Cube与OCS交换机的连接方式示意图 图10:由4096个TPU芯片组成的超级计算机 赛微电子是全球MEMS代工龙头,布局MEMS光开关、硅光芯片等硅光电子前沿产品 赛微电子是全球最大的纯MEMS晶圆代工厂,现有MEMS业务包括工艺开发和晶圆制造两大类:工艺开发业务是指根据客户提供的芯片设计方案,以满足产品性能、实现产品“可生产性”以及平衡经济效益为目标,利用工艺技术储备及项目开发经验,进行产品制造工艺流程的开发,为客户提供定制的产品制造流程;晶圆制造业务是指在完成MEMS芯片的工艺开发,实现产品设计固化、生产流程固化后,为客户提供批量晶圆制造服务。 公司过往参与了500余项MEMS工艺开发项目,与下游客户开展广泛合作,代工生产了包括光开关、微镜、片上实验室、微热辐射计、振荡器、原子钟、压力传感器、加速度计、陀螺仪、硅麦克风等在内的多种MEMS产品。公司代工产品用途广泛,产品终端应用涵盖了通讯、生物医疗、工业及科学、消费电子等领域。 10月20日,公司在投资者互动平台表示,公司境外MEMS产线的硅光子芯片制造技术较为成熟,已具备工艺开发及小批量生产经验,已向欧美知名厂商长期供货。同时,境内MEMS产线已执行不同阶段的工艺开发合同,制造工艺正在持续积累迭代中。公司持续关注硅光芯片在下游光通信、光互联与光计算领域的应用,努力为境内外客户和相关产业创造价值。 图11:公司包括MEMS光开关在内的代工产品示意图 图12:公司包括光开关在内的MEMS产品终端应用 2016年,公司以7.5亿元人民币的价格完成对瑞典Silex的控股收购,瑞典Silex成为公司的全资子公司,同时成为MEMS业务板块的核心工厂及支持平台。2022年1月以来,瑞典FAB1及FAB2积极维护并拓展已有通信、生物医疗、工业汽车、消费电子领域市场,积极推进新型MEMS硅光子器件、新型M