他山之石系列交换机专题(二) 国内外交换机发展趋势研究 西南证券研究发展中心通信研究团队2024年7月 核心要点 AI浪潮下,交换机在保障高效网络连接和数据传输领域举足轻重。随着AI数据量和模型规模的增加,分布式计算通过多个互连节点加速训练过程。交换机在此过程中确保消息及时传递至所有节点,尤其在大规模数据中心和竞争性工作负载中,尾延迟尤为重要。此外,网络的扩展能力和处理大量节点的能力对于大型AI模型的训练和海量数据的处理至关重要,交换机在保障高效网络连接和数据传输方面发挥关键作用。据IDC数据,2022年,全球交换机市场规模为3080亿元,同比增长17,预测20222027年CAGR约为46;中国交换机市场规模为591亿元,同比增长95,预计未来5年增速高于全球增速,稳定在79。 中美两国在电信网络基础设施和算力基础设施方面的投资趋势表现出显著差异。尽管在5G建设、产业数字化和基站等领域的投资力度相当,但在算力基础设施方面,中国仍与美国存在较大差距。这反映了中美两国在不同发展阶段和市场需求上的不同。特别是在交换机芯片领域,海外公司在高端芯片的交换容量和制程工艺上领先,中国企业虽然积极研发,但仍处于追赶阶段。随着中国对云计算和网络基础设施需求的快速增长,预计未来中国在这些领域的投资将加速追赶,缩小与美国之间的鸿沟。 英伟达加大以太网投资,关注以太网产业链相关机遇。IB适合高性能计算和需要高性能通信的场景,而以太网在终端设备互联和AI网络等一般网络应用中更具优势。未来,以太网将在AI网络和高性能计算中扮演更重要的角色,特别是随着超级以太网联盟的成立和技术改进,以太网将提供更具成本效益和兼容性的解决方案。国内外厂商都在逐渐将重点从IB转向以太网技术,专注于高性能交换机和网络适配器的研发和推广,以满足大规模数据中心和AI应用的需求。 相关标的:Cisco、Arista、Celestica等。 风险提示:国产替代推进不及预期;技术迭代不及预期;相关激励政策落地不及预期等风险。 1 目录 一、交换机AI时代下的网络核心枢纽 二、IBvs以太网 三、交换机厂商巡礼 2 11交换机介绍 交换机是通信系统里对于信息交换功能实现的设备:交换机是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。交换是一种技术统称,它根据通信两端传输信息的需求,通过人工或设备自动完成,将信息传送到相应的路由上。 交换机在训练大型AI模型和处理海量数据中起到确保消息传递及时性及网络连接与数据传输高效性的作用:传统的数据中心将所有计算资源集中在一个地点,而分布式计算则利用多个互连的服务器或节点完成任务。这种模式下,工作负载通过高速、低延迟的网络连接分散到不同机器上。生成式AI应用程序或AI模型(如ChatGPT、BERT、DALLE)的训练需要大量计算资源,特别是大型复杂模型。随着数据量和模型规模的增加,分布式计算通过多个互连节点加速训练过程。交换机在此过程中确保消息及时传递至所有节点,尤其在大规模数据中心和竞争性工作负载中,尾延迟尤为重要。此外,网络的扩展能力和处理大量节点的能力对于大型AI模型的训练和海量数据的处理至关重要,交换机在保障高效网络连接和数据传输方面发挥关键作用。 GPU到GPU连接 从单个GPU到GPU多点集群 数据来源:NVIDIA《NetworkingfortheEraofAI3 TheNetworkDefinestheDataCenter》,西南证券整理 12交换机关键指标 交换机关键参考指标包括交换带宽、延迟、抖动和兼容性等:交换带宽反映了交换机的总体数据交换能力。低延迟对于实时应用和高速网络环境非常重要。抖动指的是数据包到达时间的变异性,抖动越小,数据传输的稳定性越高。兼容性衡量交换机与其他网络设备和协议的互操作性,确保系统的无缝连接。 交换机的关键指标概括 指标 概念 包转发率 (PacketsPerSecondPPS) 衡量交换机转发以包为单位的数据的能力的指标,表示交换机每秒可以转发多少个数据包。 吞吐量(Throughput) 交换机在单位时间内可以处理的数据量,单位是比特每秒(bps)。它反映了交换机在全双工模式下的最大传输速率。 线速转发 (WirespeedForwarding) 指交换机能够以与输入数据相同的速率转发数据包,即没有延迟。这要求交换机的转发能力至少与端口速率相匹配。 无阻塞交换 (NonblockingSwitching) 交换机在转发数据时不会发生数据包的排队等待,所有端口可以同时以全速运行,没有性能瓶颈。 交换容量 (SwitchingCapacity) 也称交换带宽或背板带宽,是指交换机在全双工模式下所有端口的总吞吐量,即所有端口同时工作时交换机能够处理的最大数据量。 端口密度 (PortDensity) 交换机上可以支持的端口数量,它影响交换机可以连接的设备数量和整体的扩展能力。 兼容性(Compatibility) 交换机与其他网络设备和协议的兼容程度,保证网络系统的无缝连接和互操作性。 延迟 (Latency) 数据包从进入交换机到被转发出去所需的时间。低延迟对于实时应用和高速网络环境非常重要。 抖动 (Jitter) 数据包到达时间的变化量,对于需要保证服务质量(QoS)的应用来说,低抖动是必要的。 数据来源:锐捷网络招股书,西南证券整理4 13交换机设备需求集中于电信运营商与云厂商 中美两国在电信网络基础设施方面的投资趋势表现出相似的态势。根据近几年的数据,尽管在某些年份美国的资本开支略高于中国,但整体来看,两国在5G建设、产业数字化和基站等领域的投资力度非常接近。这反映了中美两国在提升电信网络能力和基础设施建设方面的共同重视程度。这样的投资不仅推动了各自国家的科技进步和经济发展,也为全球通信技术的提升贡献了力量。 算力侧鸿沟大,国内交换机需求有望呈现加速追赶态势。根据近几年的数据,中美两国在算力基础设施方面的投资存在显著差距。尽管中国在云计算、数据中心和网络基础设施等方面有稳定投资,但与美国相比差距仍然较大。这种投资差距反映出中美两国在算力领域的不同发展阶段和市场需求。多元算力设施建设薄弱,产业生态体系仍需完善设施层面,制约了中国AI产业的进一步发展。随着中国对云计算和网络基础设施需求的快速增长,预计未来中国在这方面的投资将加速追赶,有望缩小与美国之间的鸿沟。 中美电信侧运营商资本开支对比(更新至2023年) 中美算力侧运营商资本开支对比(更新至2023年) 数据来源:Verizon,ATT,TMobile,中国电信,中国联通,中国移动,亚马逊,微软,Alphabet,阿里,腾讯,百度,中国信通院,西南证券整理5 交换芯片主要功能介绍 14交换机带宽的决定因素:交换芯片 以太网交换机芯片承担交换机核心转发功能,决定核心性能指标。芯片主要组成部分为交换核心、接口控制器和内存。交换芯片专 门用于数据包的预处理以及转发,其通过专用的PCIE线与CPU相连,接收中央处理器的调用指令,完成数据转发。 交换机芯片占交换机成本较高。依据菲菱科思招股书的描述,其公司直接材料成本在主营业务中成本占比较高,其中芯片在直接材料中的占比达到40。其他组成部分包括电源,结构件,PCB,网络变压器和被动元器件等。 连接和通信 实现不同设备之间的快速、高效的连接和通信,从而构建起一个完整的网络通信系统。 数据管理和控制 管理和控制网络数据,以保障网络通信的安全和稳定。 网络优化和提升 优化和提升网络通信的性能和效率。例如,通过优化转发算法、支持流量控制等功能,有效地提高网络通信的效率。 数据过滤 根据数据包的源地址、目的地址、协议类型等信息,对数据包进行过滤和分类,实现数据流量的管理和控制。 QoS支持 实现QoS(QualityofService)技术,根据不同的应用场景和需求,对数据包进行优先级和带宽控制,确保关键数据能够优先传输,实现网络传输的质量保证。 电力管理 实现电力管理和节能模式,根据网络使用情况和负载情况,自动调整交换机的功率和工作模式,达到节能和环保的效果。 数据来源:电子发烧友,菲菱科思,西南证券整理6 中外高端交换机芯片对比 海外芯片公司在高端芯片的交换容量上领先,制程工艺成熟。海外头部芯片公司均已量产512Tbps的交换机芯片,具备800G高端口速率和先进的制程技术,国内芯片厂商位于量产24Tbps交换芯片阶段。中国企业正在积极研发,未来可能缩小差距。 博通于2022年8月16日发布Tomahawk5 思科于2023年6月20日发布G200 美满于2023年3月2日发布Teralynx10 盛科通信于2021年12月27日发布TsingMaMX 盛科通信预计将在2024年发布最新Arctic 15交换机芯片代际差异 公司 型号 交换容量Tbs 端口速率GbE 博通 Tomahawk5 512 800 思科 G200 512 800 美满 Teralynx10 512 800 盛科通信 TsingMaMX 24 400 盛科通信 Arctic在研 256 800 数据来源:博通,思科,美满,盛科通信,海陆清风,西南证券整理7 目录 一、交换机AI时代下的网络核心枢纽 二、IBvs以太网 三、交换机厂商巡礼 8 21IB网络 传统模式VSRDMA模式 InfiniBand是一种为高性能计算设计的互连标准,旨在解决集群中数据传输的瓶颈。其主要特点包括高带宽、低延迟和高网络可靠性。InfiniBand起源于1999年,由未来IO和下一代IO(NGIO)两种竞争设计合并而成,并由英特尔、SunMicrosystems、Dell等公司推动。在2000年,InfiniBand架构规范10版发布,最初目标是替代PCI总线、以太网、集群互连和光纤通道。 InfiniBand的发展历程充满挑战和机遇,但最终找到了高性能计算领域的增长点。随着英特尔和微软的退出,Mellanox逐渐成为InfiniBand的主要推动力。Mellanox通过一系列并购和技术整合,占据了全球InfiniBand市场的80。 InfiniBand之所以能迅速崛起,RDMA拥有主要功劳。如右图所示,在传统TCPIP中,来自网卡的数据,先拷贝到核心内存,然后再拷贝到应用存储空间。这种操作方式需要经过核心内存的转换,增加了数据流传输路径的长度,CPU的负担,和传输延迟。 RDMA的内核旁路机制,允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA的内存零拷贝机制,允许接收端直接从发送端的内存读取数据,绕开了核心内存的参与,极大地减少了CPU的负担,提升CPU的效率。 数据来源:维基百科,半导体行业观察,今日光电,西南证券整理9 22以太网网络 以太网 ROCE模式 以太网是计算机网络中最广泛使用的技术,也是互联网的基础技术。自诞生以来,以太网在不断改进,支持更高的比特率、更多的节点和更长的链路距离的同时保持良好的向后兼容性。以太网在很大程度上取代了令牌环、FDDI和ARCNET等其他有线LAN技术,成为企业、运营商、无线网络和互联网的主导技术。 以太网的设计初衷是实现局域网内的节点间通信,其特点在于兼容性强、成本较低、灵活性好。它利用MAC地址标识节点,通过ARP协议映射至IP地址,并在网络层使用IP协议路由,ICMP协议进行错误和控制消息报告。从10Mbps发展至100GE、200GE、400GE等高速标准,适应了网络带宽增长。尽管缺乏流控机制可能引起拥塞,以太网基于TCPIP协议,允许接入互联网的设备进行数据传输。 RoCE是一种在以太网上实现RDMA技术的方法,从而降低了数据传输的复杂性和延迟。RoCE分为v1和v2版本,v