白皮书 白皮书 面与向连接AI技智术算的数发据展中路心线网展络望架构 白作皮者:书万:面雨向声,A孙I智慧算永数,据张中德心胜网,何络雯架思构,与于连素接景技,鉏术丽的云发,展王路冬线雪展,陆望友锋,卫嘉杰,邱怀兵第1/19页 1AIGC及智算网络简述.......................目...............录3 1.1AIGC市场前景3 1.2AI网络架构对于AIGC应用发展的重要性3 1.3传统云计算数据中心网络架构4 1.4智算中心网络架构5 1.5AI网络架构所能容纳的最多GPU数量5 1.6AI计算网络中对于GPU与CPU的权衡6 2AI智算网络两大主流架构介绍及差异7 2.1InfiniBand网络架构7 2.1.1InfiniBand网络流控机制7 2.1.2InfiniBand网络特点:链路级流控与自适应路由8 2.2RoCEv2网络架构8 2.2.1RoCEv2网络流控机制8 2.2.2RoCEv2网络特点:强大兼容性与成本优化9 2.3InfiniBand与RoCEv2的技术差异9 3AI智算网络800G/1.6T主流传输方案9 3.1800G主流传输方案与1.6T传输方案展望9 3.2实际应用环境对传输带宽的影响10 3.3单模传输创新解决方案:基于EBO(ExpandedBeamOptical)的扩束技术11 3.4室外超大芯数传输安全可靠解决方案:预端接技术13 4AI智算网络降耗增效解决方案15 4.1创新光模块LPO与其他光模块的技术差异16 4.2应对AI数据中心高能耗高热量的问题——液冷解决方案16 4.2.1罗森伯格液冷解决方案——灵活安装的配线架17 4.2.2罗森伯格液冷解决方案——半浸没式RJ45跳线17 4.2.3罗森伯格液冷解决方案——即插即拔防水连接器18 5结语19 参考文献19 1AIGC及智算网络简述 2024年以来,全球AI市场热度不衰。OpenAI旗下Sora的发布,再次拔高了AI内容创作的上限。同时,国内人工智能领域也迎来了新的焦点——Kimi,这款AI大模型产品凭着高达200万字的上下文窗口技术,将国产AI大模型“卷”出了新高度。业界普遍预测,2024年将成为AI大模型应用的爆发之年。 1.1AIGC市场前景 IDC的数据显示,全球企业对生成式人工智能(下文简称:“AIGC”)解决方案的投资热情不断上升,预计到2024年投资额将达到200亿美元,而到2027年,这一数字预计将激增至超过1400亿美元。这一趋势不仅凸显了AIGC技术的商业潜力,也预示着AI将引领一个创新与增长的新时代。在这样的背景下,AIGC的未来增长需要坚实的支撑——而AI网络架构正是这一增长的“骨骼”,它正逐渐成为推动AI发展的关键力量。 1.2AI网络架构对于AIGC应用发展的重要性 AI网络架构的重要性在AIGC应用的发展中显得尤为突出。在AIGC工具方面,厂商正通过深度技术投资,挖掘大量数据并提升算力,使得这些工具从基础应用转变为强大的生产力工具。而在AI社交领域,大模型的发展重点在于融合AI技术与用户互动,创造富有情感和温度的互动体验,旨在重塑用户体验并探索新的商业模式。其中,自主研发能力和丰富的训练数据成为了打造有竞争力产品的关键。我们不难发现,这两个赛道的发展都依赖高效、可靠的网络架构,以支持AI大规模训练集群的算力和显存需求。 LLM(大规模语言模型)进化树(来源:HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond) 1.3传统云计算数据中心网络架构 传统的云数据中心网络架构较为成熟,但存在着诸多痛点,导致其无法完美适配AI网络架构需求。实际上,传统的云数据中心网络的设计基于对外提供服务的流量模型,以南北向流量为主导,云内部东西向流量作辅。承载智算业务时,传统云计算数据中心面临着如下挑战: 传统云数据中心与AI智算中心网络架构对比图 带宽收敛比较高:Leaf交换机上下联带宽收敛比设计,导致上下联带宽比约为1:3;互访高时延:云内部服务器间互访都需经过Spine交换机,增加转发路径,提高时延;网卡带宽低:单台物理机通常只有一张网卡,带宽不超过200Gbps,限制了整体带宽。这些问题共同影响了智算业务的高效运行,需要通过构建新的网络架构来应对需求。 1.4智算中心网络架构 AI智算网络采用Fat-Tree(胖树)架构,有效解决了传统云数据网络面临的挑战。这种架构通过1:1的无收敛配置,确保了网络的高性能和无阻塞传输。其次,为了降低时延,网络设计将8台交换机构成一个资源池,池内节点单跳通信,而跨集群通信则通过汇聚交换机,最多实现三跳传输,从而优化数据传输效率。 此外,网络采用RDMA技术,绕过操作系统内核,允许主机之间直接内存访问,可显著降低同集群内部单跳可达场景的时延,相比TCP/IP网络提升了数十倍的时延性能。针对带宽需求,AI智算服务器通常配备8张GPU卡和8个网卡插槽,以应对多机GPU集群中可能出现的超过50Gbps的跨机GPU通信带宽需求。随着800Gbps网卡的商用化,单机对外带宽有潜力达到6.4Tbps,进一步满足了AI应用对高带宽的需求,为AI智算网络提供了强大的数据传输能力。 AI网络架构图(来源:锐捷) 1.5AI网络架构所能容纳的最多GPU数量 AI网络的性能和扩展性与其网络架构和交换机端口密度紧密相关,随着网络层次的增加,可接入的GPU卡数量也随之增长。在胖树网络架构中,例如端口数为P的交换机最多可连接P/2台服务器和其他交换机,其最大容量可达P²/2张GPU卡。在更复杂的三层网络架构中,通过增加汇聚和核心交换机组,网络容量可以进一步扩展至P³/4张GPU卡。随着技术的进步,市场上已经出现了能够支持高达524k张GPU卡的网络解决方案,这展示了AI网络架构在扩展性和性能上的巨大潜力。 不同网络架构可容纳的最大GPU节点数量(来源:2023智算中心网络架构白皮书) 1.6AI计算网络中对于GPU与CPU的权衡 AI服务器之所以更倾向于使用GPU而非CPU,原因在于GPU在处理AI任务时展现出的卓越性能。GPU拥有大量并行处理核心,能够同步执行众多计算线程,特别适合进行深度学习等AI算法中涉及的大规模矩阵和向量运算,这些运算对于AI模型的训练和推理过程至关重要。GPU的并行化特性显著提高了计算速度,而CPU虽然在处理复杂逻辑和单线程任务方面表现出色,但其核心数量较少,难以匹敌GPU在大规模并行处理方面的能力。 此外,GPU拥有高达14MB的寄存器总量和80TB/s的高速数据传输能力,这使得GPU在处理AI应用中的大数据量时更为高效,进一步提升了整体的计算效率。因此,GPU不仅能够缩短AI模型的训练时间,还能提升推理性能,使得AI服务器能够处理更加复杂的模型,推动AI技术的发展。 2AI智算网络两大主流架构介绍及差异 在深入探究AI智算网络的领域时,我们发现市场中主要存在两大主流架构:InfiniBand和RoCEv2。这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在AI智算网络中的应用场景,以及各自的优势和局限性。通过这一全面的探讨,我们旨在评估并展望InfiniBand和RoCEv2在AI智算网络中的潜在应用价值和未来的发展方向,以期为行业提供深刻的洞察和专业的指导。 2.1InfiniBand网络架构 InfiniBand网络主要通过子网管理器(SubnetManager,简称SM)来进行集中管理,SM通常部署在一台接入子网的服务器上,充当网络的中枢控制器。子网中可能存在多个配置为SM的设备,但仅有一个被指定为主SM,负责通过管理数据报文(MAD)的内部下发和上传来管理所有交换机和网卡。每个网卡端口和交换芯片都通过由SM分配的唯一身份标识(LocalID,LID)进行识别,确保网络内设备的唯一性和准确性。SM的核心职责包括维护网络的路由信息和计算更新交换芯片的路由表。网卡内部的SMAgent(SMA)功能使得网卡能够独立处理SM下发的报文,无需所在服务器的干预,而提高了网络的自动化和效率。 InfiniBand网络架构示意图(来源:2023智算中心网络架构白皮书) 2.1.1InfiniBand网络流控机制 InfiniBand网络基于信用令牌(credit)机制,在每条链路都配备了一个预置缓冲区。发送端仅在确认接收端有足够的缓冲区后,才会启动数据发送,并且发送的数据量都不可超过接收端当前可用的预置缓冲区的最大容量。当接收端接收完报文,会释放缓冲区,并向发送端通报当前可用的预置缓冲区大小,从而维持了网络的流畅运行和数据传输的连续性。 2.1.2InfiniBand网络特点:链路级流控与自适应路由 InfiniBand网络依靠链路级的流控机制,防止发送过量数据,从而避免了缓冲区溢出或是数据丢包的问题。同时InfiniBand网络的自适应路由技术可根据每个数据包的具体情况进行动态路由选择,在超大规模的网络环境中实现了网络资源的实时优化和最佳负载均衡利用。 2.2RoCEv2网络架构 RoCEv2网络架构示意图(来源:2023智算中心网络架构白皮书) RoCE(RDMAoverConvergedEthernet)协议是一种能在以太网上进行RDMA(RemoteDirectMemoryAccess远程内存直接访问)的集群网络通信协议。该协议有两个主要版本:RoCEv1和RoCEv2。RoCEv1作为链路层协议,要求通信双方位于同一二层网络内。而RoCEv2则为网络层协议,它采用以太网网络层和UDP传输层,取代了InfiniBand的网络层,从而提供了更优的可扩展性。与InfiniBand网络的集中管理方式不同,RoCEv2采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势。 2.2.1RoCEv2网络流控机制 优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。 显式拥塞通知(ECN)定义了一种基于IP层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。 数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时,优先使用ECN来通知发送端降低传输速率,防止PFC的不必要激活,同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制,DCQCN能够在保持网络高效运行的同时,避免因拥塞造成的数据丢失。 2.2.2RoCEv2网络特点:强大兼容性与成本优化 RoCE网络利用RDMA技术实现了高效的数据传输,不必占用远程服务器的CPU周期,从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量,整体上提高了网络性能。RoCE方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施,这意味着企业无需额外投资于新设备或进行设备更换,就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要,使得RoCE成为提升智算中心网络性能的优选方案。 2.3InfiniBand与RoCEv2的技术差异 市场中对网络的多样化需求促成了InfiniBand和RoCEv2两种网络架构的共同发展。InfiniBand网络凭借其高级技术,如高效的转发性能、快速的故障恢复时间和增强的扩展性,以及运维效率,在应用层业务性能上展现出显著优势,特别