您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:MarvellAIDay总结:AI改变集群网络架构,光互联市场弹性充足 - 发现报告
当前位置:首页/行业研究/报告详情/

MarvellAIDay总结:AI改变集群网络架构,光互联市场弹性充足

电子设备2024-04-15马成龙国信证券E***
MarvellAIDay总结:AI改变集群网络架构,光互联市场弹性充足

事项: 美国东部时间4月11日,Marvell举办Accelerated Infrastructure fortheAI Era活动,对公司面向AI基础设施的产品布局和战略方向作介绍。2023年MarvellAI相关业务实现营收5.5亿美元,占公司整体业务收入10%;预计2024年营收超15亿美元,其中连接业务预计实现营收10亿美元,定制计算业务预计实现营收5亿美元,占公司整体营收比例将提升至30%。活动期间,MarvellCTONoamMizrahi分享了AI如何重塑网络架构的见解,其认为大规模AI集群中,光连接的增长速度有望超越加速单元(XPU)的增长速度。 国信通信观点:AI改变算力集群网络架构,DCI互联产生全新应用市场。Marvell将AI集群内部的网络连接分为三种类型——即用于芯片互联的计算单元互联网络、用于AI服务器互联的前端网络以及用于数据输入输出的后端网络;AI集群需要通过DCI网络接入外部网络。考虑到AI集群规模不断扩大,分布式的算力集群产生距离在10-20km的互联需求,DCI互联有望产生新的应用领域。 大规模AI集群中光互联增长弹性有望超越加速单元(XPU)。需求弹性层面,算力集群加速单元规模突破至10万、100万级别时,对应网络层数可能提升到5-10层,则加速单元:光模块的比值有望从目前的1:2-1:3上升到1:5-1:10,集群光模块的用量弹性将超越加速卡。同时价格弹性层面,AI推动光互联的速率升级周期从4年缩短至2年,高速产品迭代带动价值量提升。 AI集群互联市场有望维持高景气度。从Marvell互联业务可触及市场为例,预计2023-2028年CAGR可达27%,其中数据中心内光互联、铜互联对应CAGR分别为25%和59%,数据中心互联(DCI)CAGR为25%,AI集群互联市场景气度持续。 投资建议:AI改变算力集群网络架构,一方面单一训练集群规模持续扩大,互联需求和加速单元的比例关系有望进一步提升;另一方面,分布式的算力集群有望促进10-20km的DCI互联需要,加速“相关下沉”。 综合来看,Marvell认为光互联需求的增长弹性有望超越加速单元,光互联市场有望维持高景气。持续推荐光器件光模块,重点关注中际旭创、天孚通信、新易盛、光迅科技等。 评论: AI改变算力集群网络架构 Marvell将AI集群内部的网络连接分为三种类型: (1)计算单元互联(ComputeFabric):用于连接服务器内部多个加速单元(XPU),该连接通常基于铜材质的短距离连接,使用协议包括NVLink、Infinity Fabric和PCIe等,具备超高带宽的速率要求。 (2)后端网络(BackendNetworks):用于将AI服务器与集群内的其他数千台AI服务器相连,每个XPU对应特定网卡(NIC),进而实现与交换机和其他AI服务器的连接。后端网络主要使用InfiniBand或以太网(Ethernet)协议,通常采用光互联。 (3)前端网络(Frontend Networks):用于AI服务器所处理数据的输入及运行结果的输出,AI服务器的CPU通过NIC与数据中心的其余服务器、存储和其他交换机等环节实现连接。前端网络采用以太网光连接方案。 图1:含前端网络和后端网络的AI集群网络架构示意图 同时,考虑到当前的AI集群规模已经从数千个GPU增长到数万个GPU,未来可能会发展到数十万乃至数百万个加速单元的超级计算集群,AI时代需要建造比现在规模更大的数据中心,或者将一个数据中心内部分割出多个集群建筑单元,构建一个逻辑上规模更大的数据中心。这些更大规模的AI集群所需的连接距离从不到2公里增加到10-20公里,10-20km的互联需要DCI互联网络支撑。 图2:包含DCI互联的AI集群网络架构示意图 AI时代,集群网络性能需要具备更高带宽、可预测的网络延迟等要求。AI时代网络架构面对非常大的数据集和大型工作负载,往往超出单个处理器的性能限制瓶颈。因此需要将工作负载分布在多个单元,并依赖网络使这些处理器像协同运行。因此要求网络具有更高带宽、可预测的网络延迟等特点。 图3:AI集群的多负载协同工作特性对网络提出更高要求 因此基于缩小网络瓶颈考虑,大规模AI集群的网络架构需要满足大带宽、低时延、无损的需求。智算中心网络架构一般采用Fat-Tree(胖树)网络架构,具有无阻塞网络的特点。在胖树网络架构下,目前AI服务器互联的前端网络(FrontendNetwork)中,每个XPU对应的端口数量是通用处理器的2到3倍,Marvell预计随着每一代更快的AI加速单元推出,XPU对网络端口的比例将会进一步增长。 后端网络方面,Marvell认为AI集群将存在一个完全不同于前端网络、专门为集群内AI单元设计的独立交换组织结构(SwitchingFabric),是一个全新的应用市场,且其增长曲线与过去云计算领域完全不同。 总体来看,AI集群正在持续改变集群网络架构,网络架构的下一步演进是进一步将芯片组的边界向上延伸到网络层次结构中的组织结构,从而进一步模糊了交换和连接的界限,并以全新的方式重新划分这些大型组织结构。 图4:AI集群的多负载协同工作特性对网络提出更高要求 AI网络架构变化驱动光互联弹性超过XPU AI集群网络架构变化,推动光互联需求弹性超越加速单元。Marvell认为AI大规模集群带来光连接需求的爆发性增长——到十万级/百万级的AI集群预计需要5层/10层网络架构,对应光模块需求弹性将超越加速单元。具体来说: (1)ChatGPT3.0在1000个XPU的AI集群训练,对应光互联需求数为2000个,即XPU:光模块=1:2; (2)ChatGPT4.0在2.5万个XPU的AI集群上进行训练,对应7.5万个光互联需求,即XPU:光模块=1:3; (3)Marvell预计当集群光模块数量增长到10万、100万级别时,光互联的需求数有望增长到50万、1000万,即XPU:光模块比例提升到1:5或1:10,对应网络架构提升到5层或10层。 图5:英伟达A100训练集群网络结构和光互联需求 图6:英伟达H100训练集群网络结构和光互联需求 图7:光互联需求弹性超越XPU增长弹性 同时,AI加速光互联速率提升周期,光摩尔定律加速。传统数通市场,光模块的升级周期一般在3-5年左右,AI应用正加速光模块的升级周期,速率升级周期提升至2年左右。考虑到英伟达加速迭代周期,根据路线图B100有望于2024年发布,其适配的光模块将有望升级到1.6T,从产业进展和配套算力芯片迭代周期来看,高速光模块需求的升级周期加速。 图8:光互联需求弹性超越XPU增长弹性 AI集群互联市场有望维持高景气度 AI训练及推理侧都将推动光互联需求持续显著增长。在训练侧,Scalinglaw下的AI大模型将需要尽可能大的XPU集群,而如前文所述,越大规模的AI集群中光模块的单位需求弹性更高。而在推理侧,所需的算力集群规模取决于具体的应用场景和不同的行业需求,但全球范围内部署大量的推理集群以实现AI的商业化,集群的数量将大幅增长,也将持续带动光互联需求增长。 图9:推理和训练集群都将带动光互联需求增长 从市场空间来看,2023年全球数据中心资本支出达到2600亿美元,其中基础设施设备资本支出1970亿美元。细分到半导体领域,除内存外半导体市场规模约820亿美元,包括: (1)计算领域:2023年市场规模680亿美元,其中Marvell涉及的定制ASIC市场规模为66亿美元,预计到2023-2028年CAGR为32%,市场规模有望达到275亿美元; (2)交换领域:2023年市场规模约60亿美元,2023-2028年CAGR为15%,预计市场规模可达120亿美元; (3)互联领域:2023年市场规模约43亿美元,2023-2028年CAGR为27%,预计市场规模可达139亿美元; (4)存储领域:2023年市场规模42亿美元,预计到2028年市场规模59亿美元,对应复合增速为7%。 图10:2023年数据中心基础设施市场空间 图11:2023年数据中心半导体(除内存)市场空间 细分互联市场,Marvell目前涉及的产品线市场规模约34亿美元: (1)数据中心内部光连接市场:2023年市场规模约23亿美元,预计2028年市场规模提升至71亿美元,对应CAGR为25%; (2)数据中心内部铜连接(AEC)市场:2023年市场规模约1亿美元,预计2028年市场规模提升至10亿美元,对应CAGR为59%; (3)数据中心间DCI互联市场:2023年市场规模约10亿美元,预计2028年市场规模提升至30亿美元,对应CAGR为25%。 图12:Marvell互联业务TAM 投资建议 AI改变算力集群网络架构,DCI互联产生全新应用市场。Marvell将AI集群内部的网络连接分为三种类型——即用于芯片互联的计算单元互联网络、用于AI服务器互联的前端网络以及用于数据输入输出的后端网络;AI集群需要通过DCI网络接入外部网络。考虑到AI集群规模不断扩大,分布式的算力集群产生距离在10-20km的互联需求,DCI互联有望产生新的应用领域。 大规模AI集群中光互联增长弹性有望超越加速单元(XPU)。需求弹性层面,算力集群加速单元规模突破至10万、100万级别时,对应网络层数可能提升到5-10层,则加速单元:光模块的比值有望从1:2-1:3上升到1:5-1:10,集群光模块的用量弹性将超越加速卡。同时价格弹性层面,AI推动光互联的速率升级周期从4年缩短至2年,高速产品迭代带动价值量提升。 AI集群互联市场有望维持高景气度。从Marvell互联业务可触及市场为例,预计2023-2028年CAGR可达27%,其中数据中心内光互联、铜互联对应CAGR分别为25%和59%,数据中心互联(DCI)CAGR为25%,AI集群互联市场景气度持续 投资建议:AI改变算力集群网络架构,一方面单一训练集群规模持续扩大,互联需求和加速单元的比例关系有望进一步提升;另一方面,分布式的算力集群有望促进10-20km的DCI互联需要,加速“相关下沉”。 综合来看,Marvell认为光互联需求的增长弹性有望超越加速单元,光互联市场有望维持高景气。持续推荐光器件光模块,重点关注中际旭创、天孚通信、新易盛、光迅科技等。 表1:可比公司盈利预测估值比较(更新至2024年4月12日) 风险提示: AI发展不及预期,网络架构及技术革新大幅缩减光互联用量,资本开支不及预期。