证券研究报告 行业研究|行业专题研究|通信 百万卡算力之路: 多DC分布式训练和DCI需求增长 请务必阅读报告末页的重要声明 2024年10月07日 证券研究报告 |报告要点 高能耗的算力集群将迫使AI模型训练从单计算中心训练,走向多DC协同训练,远距离异步协同训练将成为主流。Meta和Google已经开始了多DC分布式训练,其中Google的Gemini1Ultra就是通过多DC的分布式训练实现的,OpenAI和微软计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练。多DC协同训练给网络带来挑战。400GZR相干技术优势明显,ZR光模块需求有望增长。我们认为AI算力对网络的需求正在向DCI场景扩散,有望带动DCI市场的高速增长。建议关注DCI产业链和400G/800GZR光模块供应商。 |分析师及联系人 张宁 张建宇 SAC:S0590523120003SAC:S0590524050003 请务必阅读报告末页的重要声明1/10 行业研究|行业专题研究 2024年10月07日 通信 百万卡算力之路: 多DC分布式训练和DCI需求增长 投资建议: 强于大市(维持) 上次建议:强于大市 相对大盘走势 通信 10% 沪深300 -3% -17% -30% 2023/102024/22024/62024/9 相关报告 1、《通信:华为领航,AI和国产算力产业持续蓬勃发展》2024.09.22 2、《通信:CIOE2024:聚焦AI,关注1.6T和DCI新变量》2024.09.16 扫码查看更多 海外科技巨头积极布局多DC分布式训练 关于AI大模型训练在什么阶段需要DCI联接,需要多少DCI带宽,我们认为不同的互联网公司,因为IDC资源不同、业务模型不同,会有较大的配置差异。但是Meta和Google已经开始了多DC分布式训练,其中Google的Gemini1Ultra就是通过多DC的分布式训练实现的。谷歌目前有两个主要的多数据中心区域,分别位于俄亥俄州和爱荷华州/内布拉斯加州。OpenAI和微软更加雄心勃勃,计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练。 分布式训练给网络带来挑战 AI训练步入十万卡时代,跨DC协同训练对网络带来挑战。(1)AI训练对网络丢包的敏感度高。(2)大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,降低网络使用率。(3)在万卡集群中,极端情况下流量瞬时并发可达上千Tbps。目前,十公里的跨机楼并行训练算效损失可低于5%,具备可行性未来百公里级、千公里级的跨地域并行训练欲将损失控制在10%以下,除需建设长距离超宽DCI网络之外,还涉及模型切分策略、集合通信算法、无损网络技术等 400GZR相干技术优势明显,ZR光模块需求有望增长 400GZR相干光学技术有望在DCI中取代传统的波分复用(WDM)系统。相比于传统的WDM系统,400GZR系统更加简洁,主要有MUX/DEMUX,并采用可调谐激光器的相干光模块,直接放在客户侧的交换机/路由器上。根据LightCounting的预测2024-2028年,400GZR,ZR+的光模块保持增长。产品价值量方面,根据LightCounting预测,2023年400GZR的价格为3230美元,2024年800GZR的价格为4800美元。 建议关注DCI产业链和400G/800GZR供应商 海外科技巨头积极布局多DC分布式训练,我们认为AI算力部署对网络的需求正在向DCI场景扩散,有望带动DCI市场的高速增长。我们建议关注:国内OTN厂商:中兴通讯、烽火通信、光迅科技;有400G/800GZR产品布局的德科立、中际旭创、新易盛、华工科技;铌酸锂调制供应商:光库科技。 风险提示:AI产业发展不及预期风险、算力需求不及预期风险、技术发展不及预期风险、市场竞争加剧风险。 正文目录 1.多DC协同训练,算力竞争下半场4 1.1海外科技巨头积极布局多DC分布式训练4 1.2分布式训练给网络带来挑战5 1.3DCI互联方案和市场空间分析6 2.投资建议:优先看海外DCI,长期看国内DCI8 2.1国内主要的DCI厂家8 2.2建议关注DCI产业链和400G/800GZR供应商9 3.风险提示9 图表目录 图表1:Meta的分布式训练架构4 图表2:Google的大规模训练结构图4 图表3:Google的IDC集群(位于康瑟尔布拉夫斯、奥马哈、爱荷华州帕皮隆和内布拉斯加州林肯市)5 图表4:Google的IDC集群(位于俄亥俄州哥伦布市附近)5 图表5:微软在凤凰城区域的IDC园区位置5 图表6:微软在德克萨斯州的IDC园区位置5 图表7:跨DC协同训练给网络带来挑战6 图表8:谷歌Pathways训练系统6 图表9:DWDM工作原理7 图表10:400GZR和传统波分复用系统(WDM)的对比7 图表11:全球400GLR光模块出货量预测8 图表12:全球400GLR光模块市场规模预测(百万美元)8 图表13:全球WDM光模块出货量预测8 图表14:全球WDM光模块市场规模预测(百万美元)8 图表15:OFC2024上OIF的单跳400G/800GZRdemo9 图表16:OFC2024上OIF的多跳400G/800GZRdemo9 1.多DC协同训练,算力竞争下半场 1.1海外科技巨头积极布局多DC分布式训练 海外科技巨头积极布局多DC分布式训练。关于AI大模型训练在什么阶段需要DCI联接,需要多少DCI带宽,我们认为不同的互联网公司,因为IDC资源不同、业务模 型不同,会有较大的配置差异。但是我们可以清楚的看到Meta和Google已经开始了多DC分布式训练,其中Google的Gemini1Ultra就是通过多DC的分布式训练实现的。 图表1:Meta的分布式训练架构图表2:Google的大规模训练结构图 资料来源:《RDMAoverEthernetforDistributedAITrainingatMetaScale》AdithyaGangidi等,国联证券研究所 资料来源:semianalysis,Google,国联证券研究所 谷歌积极布局多DC分布式训练。谷歌有两个主要的多数据中心区域,分别位于俄亥俄州和爱荷华州/内布拉斯加州。康瑟尔布拉夫斯周围的区域正在积极扩展,容量将超过现有容量的两倍。除了上述园区外,谷歌还在该地区拥有另外三个正在建设中的站点,这些站点都在升级高带宽的网络。 有三个站点彼此相距约15英里(康瑟尔布拉夫斯、奥马哈和爱荷华州帕皮隆),另一 个站点距离约50英里,位于内布拉斯加州林肯市。预计到2026年,四个园区的结合将形成一个GW级的人工智能训练集群,其中林肯数据中心将是谷歌最大的单个站点。 图表3:Google的IDC集群(位于康瑟尔布拉夫斯、奥马哈、爱荷华州帕皮隆和内布拉斯加州林肯市) 图表4:Google的IDC集群(位于俄亥俄州哥伦布市附近) 资料来源:semianalysis,国联证券研究所资料来源:semianalysis,国联证券研究所 OpenAI和微软更加雄心勃勃,计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练。 图表5:微软在凤凰城区域的IDC园区位置图表6:微软在德克萨斯州的IDC园区位置 资料来源:《Multi-DatacenterTraining:OpenAI'sAmbitiousPlanToBeatGoogle'sInfrastructure》GigawattClusters等,国联证券研究所 资料来源:《Multi-DatacenterTraining:OpenAI'sAmbitiousPlanToBeatGoogle'sInfrastructure》GigawattClusters等,国联证券研究所 1.2分布式训练给网络带来挑战 AI训练步入十万卡时代,跨DC协同训练对网络带来挑战。(1)AI训练对网络丢包 的敏感度高,即使是0.1%的丢包率也可能导致训练效率降低50%,严重影响协同训练效果。(2)大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,降低网络使用率。(3)在万卡集群中,由于业务高突发和高并发,极端情况下流量瞬时并发可达上千Tbps。 目前,十公里的跨机楼并行训练算效损失可低于5%,具备可行性,未来百公里级、千公里级的跨地域并行训练欲将损失控制在10%以下,除需建设长距离超宽DCI网络之外,还涉及模型切分策略、集合通信算法、无损网络技术等。 图表7:跨DC协同训练给网络带来挑战 资料来源:华为《迈向智能世界白皮书2024》,国联证券研究所 为了实现多园区训练,Google目前使用功能强大的分片工具MegaScaler,它能够使用Pathways的同步训练将一个园区内的多个pod和一个区域内的多个校区进行分区。在扩大单个训练工作负载所需的芯片数量时,MegaScaler为Google在稳定性和可靠性方面提供了强大优势。 图表8:谷歌Pathways训练系统 资料来源:semianalysis,Google,国联证券研究所 未来在多园区、多区域集群上训练的模型将达到100T+的数量级。在不久的将来,我们认为,一个区域内的园区站点间的带宽增长到5Pbit/s左右是较为合理的假设,而不同区域之间的合理带宽是1Pbit/s。 1.3DCI互联方案和市场空间分析 更大的带宽可以通过更高阶的调制方式或者采用DWDM(密集波分复用)来实现。与使用PAM4的强度调制直接检测方案(IMDD)相比,DP-16QAM的带宽增加了8倍。长距离传输仍然存在光纤限制,DWDM将多种波长的光聚合到同一根光纤上,也可以用 来实现更高的带宽。在下面示例中,C波段(1530nm到1565nm)上的76个波长和L波段(1565nm到1625nm)上的76个波长被复用到同一根光纤上。 图表9:DWDM工作原理 资料来源:semianalysis,Ciena,国联证券研究所 400GZR相干光学技术有望在DCI中取代传统的波分复用(WDM)系统。相比于传统 的WDM系统,400GZR系统更加简洁,主要有MUX/DEMUX,并采用可调谐激光器的相干光模块,直接放在客户侧的交换机/路由器上。 图表10:400GZR和传统波分复用系统(WDM)的对比 资料来源:semianalysis,anritsu,国联证券研究所 根据通信距离的不同,DCI场景也会选择不同的产品。(1)在IDC园区内部,多个不同的DC之间互连,一般会优先选择在楼宇间布放大量光缆+LR光模块的方式。(2) 跨园区的DCI互联,一般选择DWDM+ZR光模块的方案。 根据LightCounting的预测,2024-2028年,400GLR的光模块保持增长。产品价值 量方面,根据LightCounting预测,2023年400GLR的价格为760美元,2024年400GZR的价格为646美元。 图表11:全球400GLR光模块出货量预测图表12:全球400GLR光模块市场规模预测(百万美元) 资料来源:LightCounting,国联证券研究所资料来源:LightCounting,国联证券研究所 根据LightCounting的预测,2024-2028年,400GZR,ZR+、600G、800G、1.2T、1.6T的光模块保持增长。产品价值量方面,根据LightCounting预测,2023年400GZR的价格为3230美元,2024年800GZR的价格为4800美元。 图表13:全球WDM光模块出货量预测图表14:全球WDM光模块市场规模预测(百万美元) 资料来源:LightCounting,国联证券研究所资料来源:LightCounting,国联证券研究所 2.投资建议:优先看海外DCI,长期看国内DCI 2.1国内主要的DCI厂家 在OFC2024上,OIF组