Google位居AI行业第一梯队,有望进一步加强AI领域投资。Google深耕AI技术多年,为大模型领域奠基者,最新发布Gemini多模态模型,彰显其在AI领域的深厚底蕴。为满足内外部业务需求,Google持续加强算力建设,特别是采取自研TPU(张量处理器)的方式,满足自身如大模型训练/推理等相关的算力需求,同时也对外提供算力支持。TPU为Google推出的用于机器学习的专用处理器,采用脉动阵列可加速大矩阵计算,更适合AI应用场景。TPU历经多代的持续更迭,已成为Google大模型训练的主力军。AI赋能下Google利润率及营收增速迎来拐点,其中Google Cloud业务占比提升迅速,有望成为公司第二成长曲线。AI计算需求大幅增长下服务器及数据中心投资快速增长,推动Google资本开支进入向上通道,有望进一步加强AI领域投资。 自研基于OCS的光连接新方案,进一步提升TPU集群性能。Google在建设自己的数据中心过程中,由于在部署规模、灵活可用、模块化部署、安全性、功耗和性能等方面有更高要求,传统电交换不满足相关的互联需求,因此引入了OCS形成新的解决方案。在搭建TPUv4的集群时,与传统Infiniband交换机方案相比,OCS方案成本更低,功耗更低,部署更快,其中OCS和其他光学组件的成本在系统总成本的占比低于5%,功耗占比低于3%。目前OCS在Google基础设施中主要有Jupiter数据中心和TPU数据中心两大应用场景,其中后者为专注于AI算力的数据中心。 深度剖析Google OCS解决方案:器件高度定制化。基于MEMS的光交换方案在对数据速率及波长不敏感、低功耗、低延迟等方面都具备优势,Google选择自研OCS、光模块和光环形器三大主要器件,以构成一个低成本高效益的大规模光交换系统。其中:1)MEMS反射镜是OCS的核心组成器件,OCS的创新性应用,有助于MEMS代工业务的拓展。全球MEMS代工厂排名近几年的排名相对稳定,其中赛微电子的全资控股子公司silex已连续数年保持排名第一;2)光模块为适配OCS需求,被重新定制化设计为使用环形器+CWDM4/8的最新一代Bidi OSFP封装。光模块国内企业具有较强竞争力,未来应用技术难度更高,客户粘性有望持续提升;3)环形器被创新性引入光模块内,传输效率进一步提升。环形器供应链较为成熟,核心器件法拉第旋转片国产化程度较低,偏振分束器近年国内厂商如腾景科技等已具备量产能力;4)光芯片与电芯片因更高链路预算需求而配套升级,EML及DSP芯片均以海外供应商为主,国产化程度较低;5)铜缆与光纤受益Rack内外连接,带来较大需求。 AI浪潮加速算力基础设施的演进,重点关注产业演变趋势带来的机遇。AI浪潮将带来算力基础设施建设的加速,同时也催生如GoogleOCS等新型技术的成熟和落地部署,有望推动产业的演进趋势:1)自研低成本算力部署方案或成为新选择,有助于算力基础设施的快速建设;2)AI巨头的算力需求景气度高,进一步推动高度定制化成为新商业模式;3)网络架构升级将催生如OCS等新型设备的落地应用,带来产业格局变化。 投资建议:随着AI行业成熟度逐步提升,海量算力需求将持续释放,给光模块光器件光芯片的整条光互联产业链都将带来长期而有力的拉动。以Google OCS为代表的新型算力光互联解决方案有望得到更多应用,产业格局因此而出现新的变化,更多的产业机遇将逐步明晰。建议关注算力释放带来的全产业链机遇,并重点关注新技术新方案从0到1演进带来的产业预期差。建议核心关注中际旭创、天孚通信、腾景科技、源杰科技。 风险提示:全球宏观经济发展不及预期,国际贸易局势进一步紧张,AI产业发展不及预期,产业供应格局出现较大变化 投资主题 报告亮点 本报告针对Google的OCS光互联解决方案进行深度剖析,对其中的技术原理、设备结构、元器件产业链格局进行深入分析,并对由此可能带来的算力基础设施演进做出趋势判断,前瞻性提出应重点关注新技术新方案从0到1演进带来的投资机会。报告主体部分主要分成四个章节。第一章节先是介绍Google在AI领域的领导地位,对其大模型和算力设施布局进行梳理,重点对其自研AI芯片TPU进行介绍,并结合业绩表现和资本开支预判其在AI领域的投资有望进一步加强;第二章节则对OCS解决方案的两大应用场景,Jupiter数据中心和TPUv4数据中心进行介绍;第三章则对OCS解决方案的系统构成和产业格局进行分析,深入拆解OCS的各部分组成元器件,并对各元器件产业链进行梳理;第四章则是根据以OCS为代表的新型光互联解决方案的发展模式,归纳出三点行业发展的趋势判断,指引投资选择。 投资逻辑 随着AI行业成熟度逐步提升,海量算力需求将持续释放,给光模块光器件光芯片的整条光互联产业链都将带来长期而有力的拉动。以Google OCS为代表的新型算力互联解决方案有望得到更多应用,产业格局因此而出现新的变化,更多的产业机遇将逐步明晰。建议关注算力释放带来的全产业链机遇,并重点关注新技术新方案从0到1演进带来的产业预期差。建议核心关注以下标的: 中际旭创(300308):全球知名的光模块头部供应商。公司凭借行业领先的技术研发能力、低成本产品制造能力和全面可靠的交付能力等优势,赢得了海内外客户的广泛认可,并保持在数通光模块细分市场的领先优势和份额。 天孚通信(300394):业界领先的光器件整体解决方案提供商。公司通过自主研发和外延并购,在精密陶瓷、工程塑料、复合金属、光学玻璃等基础材料领域积累沉淀了多项全球领先的核心工艺技术,为全球客户提供多种垂直整合一站式产品解决方案。 腾景科技(688195):深耕定制化精密光学元件。公司基于核心技术,为客户提供定制化的光电子元器件产品,已与全球主要的光模块/设备厂商和光纤激光器厂商建立了合作关系,同时优势产品在细分领域具有较高的市场影响力。 源杰科技(600498):稀缺的高端光芯片国产代表企业。公司目前产品包括2.5G、10G、25G、50G、100G光芯片产品、CW光源、车载激光雷达光源等产品,在境内外市场开拓了众多的直接或间接优质客户。 一、Google位居AI行业第一梯队,有望进一步加强AI领域投资 (一)Google为大模型领域奠基者,最新发布的Gemini彰显深厚底蕴 1、超前提出AIFirst战略,长期深耕大模型和算力设施 Google深耕AI技术多年,为大模型领域奠基者。早在2017年,Google就已经把发展战略从MobileFirst转变为AIFirst。同年Google发布NLP模型Transformer,该模型通过引入Self-Attention机制,利用注意力机制来提高模型训练速度,使得模型可以并行化训练,这也为后续大语言模型的升级迭代奠定了基础。2018年,Google发布大规模预训练模型BERT,可以进行双向预测,该模型进一步提升了自然语言理解及处理的精度。2022年,Google推出模型PaLM,该模型在语言理解、逻辑推理、代码生成等方面均实现了出色表现。2023年以来,Google先后推出PaLM2及Gemini,模型能力进一步提升。 图表1 2017年以来,Google在AI大模型方向的重要里程碑 最新发布Gemini多模态模型,Google彰显AI深厚底蕴。美国时间2023年12月6日,Google正式发布该公司“规模最大、功能最强”的多模态大模型Gemini,引发市场高度关注。根据Google披露,Gemini是基于Transformer decoder构建的原生多模态模型,其性能较原有的单一模型更为全面,支持32K的contex长度。在大型语言模型(LLM)研发中使用的32个广泛使用的学术基准中,Gemini Ultra性能有30个都超过了当前最先进的结果,其中GeminiUltra的MMLU(大规模多任务语言理解)得分为90.0%,是第一个优于人类专家的模型,多个任务性能表现也都超过GPT-4。 Google未来会将Gemini融入到自身业务中,例如搜索、广告、Chrome和Duet AI等。 图表2 GeminiUltra与GPT-4的性能对比 图表3 Gemini专为多模态用例而设计 为满足内外部业务需求,Google持续加强算力建设。除了在大模型领域引领行业发展外,Google在算力设施方面也有持续的布局,以满足企业内外部的业务需求。对内,Google将AI技术深度赋能公司各项业务,包括搜索、地图、广告等公司传统的优势业务,例如公司推出了SGE(Search Generative Experience)搜索引擎,利用AI改进用户搜索体验; 对外,Google通过GoogleCloud可以提供从IaaS到PaaS到SaaS的AI相关一系列服务,其中ComputeEngine是GoogleCloud的计算托管服务,提供可添加到虚拟机实例的GPU,实现智算算力的对外供应。为了满足以上对内对外的算力需求,Google一方面通过部署成熟的GPU资源提供算力服务,如最新发布的A3超级计算机即可提供NvdiaH100GPU算力;另一方面采取自研TPU的方式,满足自身如大模型训练/推理等相关的算力需求,同时也可对外提供算力支持。 图表4 SGE应用AI提升用户搜索体验 图表5 GoogleEngine提供可挂载GPU的虚拟机服务 2、自研的AI芯片TPU,支撑Google AI技术及业务发展的重要利器 TPU(张量处理器)为Google推出的用于机器学习的专用处理器。为提升处理器训练和学习神经网络的计算能力,Google用15个月的时间成功设计第一款张量处理器TPU,并于2016年正式发布。该处理器专用于机器学习,擅长大型矩阵运算,可以更高效地训练模型,芯片内集成的HBM也有助于更大规模的模型训练,此外多个TPU可以组成Pod集群,极大地提升了神经网络工作负载的效率。TPU芯片在不同的版本中会包含一个或多个TensorCore,每个TensorCore都由一个或多个矩阵乘法单元(MXU)、一个向量处理单元(VPU)和一个向量存储器(VMEM)。其中MXU由收缩阵列中的128×128乘法累加器组成,是供应算力的主要引擎,在每个周期能够执行16K乘法累加运算。 图表6 TPUv4芯片的逻辑架构 TPU采用脉动阵列可加速大矩阵计算,更适合AI应用场景。TPU为专用于神经网络工作负载的矩阵处理器,相较于CPU和GPU,TPU的功率更低、物理占用空间更小。TPU采用了脉动阵列的方式以规避冯·诺依曼瓶颈。在传统的计算架构下由于需要对存储器进行高频访问,系统的处理能力会极大地受限于其访存能力。而脉动阵列的本质就是在访问存储器之前将更多的工作留存在处理单元内完成。在脉动阵列实现矩阵运算的过程中(Y=WX+b),权重W/像素X分别从上向下/从左至右地流入数组,每次执行乘法时各个单元的乘数结果将被直接传递累加至此前的计算结果中,直至数据不再流入。在脉动计算和数据传递的过程中TPU无需再访问内存。TPU虽然牺牲了通用性,但基于对脉动阵列的应用大幅提升了其计算吞吐量,显著优化了矩阵与卷积运算过程,而大模型的训练和推理过程中,主要涉及的就是矩阵及卷积计算,因此TPU作为专用型芯片特别适用于AI的应用场景中。 图表7 CPU、GPU、TPU工作原理对比 图表8 TPU采用脉动阵列以提升计算吞吐量 历经多代的持续更迭,最新发布的TPUv5p性能尤为强大。2016年Google推出的TPUv1定位为推理芯片,为AlphaGo提供过重要的算力支撑,此后Google持续优化并迭代TPU芯片的整体性能。2017年发布的TPUv2兼顾了推理和训练的功能,相较于TPUv1,TPUv2不再固定功能单元之间的缓冲区和激活管道,而是采用了向量存储器和向量单元的方式实现功能。TPUv3的改动较为温和,整体与TPUv2采用相同技术,但将MXU和HBM容量增加了两倍。2021年发布的TPUv4则首