2024年11月18日 行业研究 网络交换是AI集群互联核心,盛科通信交换芯片国内领先 ——半导体行业跟踪报告之二十四 电子行业 买入(维持) 作者分析师:刘凯 执业证书编号:S0930517100002 021-52523849 kailiu@ebscn.com 分析师:孙啸 执业证书编号:S0930524030002 021-52523587 sunxiao@ebscn.com 行业与沪深300指数对比图 21% 8% -4% 要点 一、InfiniBand与以太网是AI大模型训练集群的主要互联技术 AI模型参数规模不断扩大,对大模型训练网络提出更高要求。随着以GPT3.0为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。 大模型训练中大规模的参数对算力和显存提出了更高的要求,千亿参数模型需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。 图表1:传统训练与大模型训练的不同 -17% -29% 11/2302/2405/2408/24 电子行业沪深300 资料来源:Wind 资料来源:《智算中心网络架构白皮书》 分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。 InfiniBand和以太网RoCEv2是当前智算网络互联主要方案。要满足智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求,目前业界比较常用的网络方案是InfiniBand方案和RoCEv2方案。 1)Infiniband InfiniBand网络的关键组成包括SubnetManager(SM)、InfiniBand网卡、InfiniBand交换机和InfiniBand连接线缆。 支持InfiniBand网卡的厂家以NVIDIA为主。InfiniBand网卡在速率方面保持着快速的发展。200Gbps的HDR已经实现了规模化的商用部署,400Gbps的 图表2:Infiniband网络架构 NDR的网卡也已经开始商用部署。交换机方面,NVIDIA在2021年推出了400Gbps的Quantum-2系列交换机(64*400G)。交换机上有32个800GOSFP口,需要通过线缆转接出64个400GQSFP。InfiniBand交换机上不运行任何路由协议。整个网络的转发表是由集中式的子网管理器(SubnetManager,简称SM)进行计算并统一下发的。除了转发表以外,SM还负责管理InfiniBand子网的Partition、QoS等配置。 资料来源:《智算中心网络架构白皮书》 2)RoCEv2网络 RoCEv2网络则是一个纯分布式的网络,由支持RoCEv2的网卡和交换机组成,一般情况下是两层架构。支持RoCE网卡的厂家比较多,主流厂商为NVIDIA、Intel、Broadcom。数据中心服务器网卡主要以PCIe卡为主。RDMA网卡的端口PHY速率一般是50Gbps起,当前商用的网卡单端口速率已达400Gbps。 图表3:RoCEv2网络架构 资料来源:《智算中心网络架构白皮书》 支持RoCE的交换机厂商中,市场占有率排名靠前的包括新华三、华为等。支持RoCE的网卡当前市场占有率比较高的是NVIDIA的ConnectX系列的网卡。 当前大部分数据中心交换机都支持RDMA流控技术,和RoCE网卡配合,实现端到端的RDMA通信。国内的主流数据中心交换机厂商包括华为、新华三等。高性能交换机的核心是转发芯片。当前市场上的商用转发芯片用的比较多的是博通的Tomahawk系列芯片。其中Tomahawk3系列的芯片在当前交换机上使用的比较多,市场上支持Tomahawk4系列的芯片的交换机也逐渐增多。 图表4:以太网芯片演进 资料来源:《智算中心网络架构白皮书》 博通、Marvell主导全球商用交换芯片市场。根据以太网交换芯片设计企业是否从事品牌交换机的研发、生产与销售,可以简单将以太网交换芯片设计企业分为自用厂商与商用厂商,前者主要从事以太网交换机产品的生产销售,其自研芯片用于自产的以太网交换机产品,主要厂商包括思科、华为等;而后者的商用交换芯片通常用于销售予其他以太网交换机整机厂商,主要厂商包括博通、美满 (Marvell)、瑞昱、英伟达、英特尔、盛科通信等。 以太网交换芯片领域集中度较高,少量参与者掌握了大部分市场份额。博通的以太网交换芯片产品在超大规模的云数据中心、HPC集群与企业网络市场占据较高份额,为以太网交换芯片全球龙头。由于以太网交换芯片行业具备较高的技术壁垒、客户及应用壁垒和资金壁垒,因此当前行业整体国产程度较低,国内参与厂商较少。 根据灼识咨询数据,2020年中国商用以太网交换芯片市场以销售额口径统计,博通、美满和瑞昱分别以61.7%、20.0%和16.1%的市占率排名前三位,合计占据了97.8%的市场份额。此外,盛科通信的销售额排名第四,占据1.6%的市场份额,在中国商用以太网交换芯片市场的境内厂商中排名第一;中国商用万兆及以上以太网交换芯片市场方面,盛科通信的销售额排名第四,占据2.3%的市场份额,在中国商用以太网交换芯片市场的境内厂商中排名第一。 图表5:2020年中国商用以太网市场竞争格局(按销售额计)图表6:2020年中国万兆及以上商用以太网市场竞争格局(按销 售额计) 资料来源:灼识咨询,盛科通信招股说明书资料来源:灼识咨询,盛科通信招股说明书 二、龙头公司布局GPU卡间互联技术标准 2024年GTC大会,英伟达发布B200系列GPU与NVL72机柜。英伟达于美东时间3月18日举办2024GTC大会,发布了多项重要产品。公司CEO黄仁勋介绍了运行AI模型的新一代芯片和软件,并正式推出名为Blackwell的新一代AI图形处理器(GPU),预计将在2024年末发货。 此外,英伟达发布了GB200NVL72,把18个Blackwell计算节点(ComputeTray)组合在一起,形成新一代计算单元。GB200NVL72中一共包含了9个NVLink交换节点(SwitchTray),每个交换节点中配置了2颗NVLinkSwitch芯片,向外提供14.4TB/s的聚合带宽。 图表7:GB200NVL72 资料来源:英伟达GTC大会 如果要训练一个1.8万亿参数量的GPT模型,需要8000张HopperGPU,消耗15兆瓦的电力,连续跑上90天。但如果使用BlackwellGPU,只需要2000张,同样跑90天只要消耗四分之一的电力。除了训练之外,生成Token的成本也会随之降低。GB200NVL72训练和推理性能相比于等同数量的H100GPU表现提升4倍和30倍。 图表8:NVLinkSwitchChip图表9:NVIDIAGB200InternalNVLinkSwitch 资料来源:Servethehome资料来源:Servethehome 从NVLINK1.0到NVLINK5.0,英伟达GPU卡间互联快速演进。作为英伟达的核心技术,NVLink在GPU网络通信系统中占据重要地位,其对于提升数据传输效率和处理性能具有显著作用。 NVLink技术实现了GPU与支持该技术的CPU之间以及多个GPU之间的高带宽直接连接,从而大幅提升了整体性能。然而值得注意的是,NVLink技术并未向行业开放,这在一定程度上影响了其他厂商在相关领域的竞争力。 英伟达不仅拥有出色的GPU和软件,还在跨多个GPU和系统横向扩展工作负载方面拥有丰富的技术积累。这些技术包括芯片上和封装上互连、用于服务器或pod中GPU到GPU通信的NVLink、用于超pod扩展的Infiniband以及连接到更庞大基础设施的以太网等。NVLink技术使得CPU与GPU之间能够实现快速数据交换,从而提升了整个计算系统的数据吞吐量,有效克服了加速计算领域的一大瓶颈。 随着英伟达GPU芯片的更新迭代,NVLink技术也在不断进化。从2017年的NVLink2.0到2020年的NVLink3.0,再到2022年的NVLink4.0,每一次更新都带来了更高的性能和更广泛的应用场景。 图表10:NVLink升级过程 资料来源:英伟达,腾讯网 在2024年的GTC大会上,英伟达推出了全新的NVLink5.0技术,并与最新一代Blackwell芯片一同亮相。这一技术极大地提升了大型多GPU系统的可扩展性,单个BlackwellTensorCoreGPU支持多达18个NVLink100GB/s连接,总带宽达到1.8TB/s,较上一代产品提升了两倍之多。此外,NVLink5.0技术还支持跨节点扩展,通过NVLinkSwitch以及铜缆互联实现无缝、高带宽、多节点GPU集群的构建,从而满足数据中心级别的大型GPU需求。 利用NVLink技术,多服务器集群能够平衡GPU通信与增加的计算量,从而实现了更高的性能和效率。例如,在GB200NVL72等服务器平台上,NVLink技术的应用使得这些平台能够支持更为复杂的大型模型,并提供了更高的可扩展性。这些优势使得英伟达在GPU网络通信领域继续保持领先地位,并为其在AI、数据中心等领域的广泛应用提供了有力支持。 为弥补卡间互联差距,八大巨头组建UALINK联盟。谷歌、Meta、微软、AMD、英特尔、博通、思科、惠普在内的科技巨头联合宣布成立UltraAcceleratorLink (UALink)联盟,致力于开发人工智能数据中心GPU网络通信系统的全新行业开放标准。此举旨在打破英伟达在市场上的垄断地位,推动行业内的竞争与创新。 UALink倡议由AMD牵头提出,得到了英特尔、博通等公司的积极响应与支持。作为倡导组织的成员,思科、谷歌、惠普、Meta和微软等公司亦表示大力支持。该倡议致力于构建一种内存语义结构,在首个版本规范中便支持扩展至1024个端点,以适应不同规模的AI计算需求。 UALink联盟计划推出的首个UALink1.0版本将实现AMD的InstinctGPU和英特尔的Gaudi等专用处理器之间的直接数据传输,从而显著提升AI计算的性能与效率。UALink的高速I/O通信设计与协议展现出强大的技术实力,彰显了联盟成员挑战市场领导者的决心。UALink专家组将负责制定管理数据中心中不同GPU之间连接的标准,并预计于2024年第三季度向联盟成员提供这些标准。 UALink的推出为业界其他公司提供了追赶英伟达步伐的契机。随着AI计算需求的不断增长,拥有一个稳健、低延迟且可高效扩展的网络对于提升计算性能至关重要。UALink及行业规范的制定将有助于为AI工作负载创建开放的高性能环境,推动行业的持续进步。 UALink工作组将致力于制定规范,以界定AI计算容器组中加速器与交换机之间进行纵向扩展通信所需的高速低延迟互连。通过标准化接口和实现方式,UALink将为新一代AI数据中心提供更加高效、灵活的AI和机器学习、高性能计算以及云应用程序解决方案。 图表11:UALinkPod图表12:UALinkPod互联 资料来源:AI芯天下,腾讯网资料来源:AI芯天下,腾讯网 对于AMD和英特尔等业界巨头,UALink的推出为它们提供了一条复制NVLink和NVSwitch功能的路径,并促进了与其