数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 1 [编号ODCC-2023-03004] 数据中心高性能网络拥塞检测技术白皮书(2023年) 中移(苏州)软件技术有限公司 中国信息通信研究院云计算与大数据研究所2023-09发布 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 版权声明 本白皮书版权属于中国移动通信集团公司、中国信息通信研究院并受法律保护。转载、摘编或利用其他方式使用本白皮书内容或观点,请注明:“来源:数据中心高性能网络拥塞检测技术白皮书”。违反上述声明者,编者将追究其相关法律责任。 I 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 编写组 项目经理: 赵兴华中国移动云能力中心工作组长: 王超阿里云计算有限公司贡献专家: 徐军中国移动云能力中心刘军卫中国移动云能力中心姚军中国移动云能力中心孟令坤中国移动云能力中心王东旭中国移动云能力中心张胜举中国移动云能力中心 孙伟云脉芯连科技有限公司张久仙中国移动云能力中心季忠铭中国移动云能力中心许治国中国移动云能力中心潘训营中国移动云能力中心史成龙中国移动云能力中心陈继磊中国移动云能力中心杨亚军中国移动云能力中心王晓辉中国移动云能力中心郝泉澄中国移动云能力中心薛迁中国移动云能力中心 徐军中国移动云能力中心 II 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 目录 版权声明I 编写组II 术语与缩略语VI 前言1 一、高性能网络的机遇与挑战3 (一)应用背景与现状4 1.分布式储存场景4 2.内存池化场景6 3.键值存储场景7 4.智能算力场景9 (二)高性能网络拥堵问题与挑战10 二、拥塞管理与控制技术体系13 (一)拥塞控制技术13 1.基于ECN的拥塞控制14 2.基于时延的拥塞控制14 3.基于INT的拥塞控制15 4.其他技术方案16 5.拥塞控制总结18 (二)链路控制技术21 1.信用21 2.PFC23 3.QCN25 III 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 4.链路控制总结26 (三)负载均衡技术27 1.流级别27 2.包级别29 3.Flowlet级别29 4.负载均衡总结30 (四)流量调度技术31 1.基于规则的调度技术32 2.基于反馈的实时调度34 3.流量调度总结34 (五)本章小结35 三、高性能网络拥塞检测技术36 (一)网侧拥塞检测37 1.ECN检测37 2.TCD检测41 3.其他检测技术42 (二)端侧拥塞检测42 1.RTT检测43 2.优先级队列检测44 (三)端侧协同拥塞检测45 1.INT检测45 2.ECN#检测46 3.ConEx检测48 4.本章小结49 IV 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 四、总结与展望50 参考文献52 V 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 术语与缩略语 Term Meaning RDMA RemoteDirectMemoryAccess RoCE RDMAoverConvergedEthernet iWarp internetWideAreaRDMAProtocol GPU GraphicsProcessingUnit IOPS Input/OutputOperationsPerSecond SRD ScalableReliableDatagram AWS AmazonWebServices DPU DataProcessingUnit RNIC RDMANetworkInterfaceCard ECN ExplicitCongestionNotification DCQCN DataCenterQuantizedCongestionNotification HPCC HighPrecisionCongestionControl PFC PriorityFlowControl RED RandomEarlyDetection AQM ActiveQueueManagement RTT RoundTripTime INT In-NetTelemetry ECMP Equal-CostMulti-Path TCD TernaryCongestionDetection CBFC Credit-BasedFlowControl PFC Priority-basedFlowControl QCN QuantizedCongestionNotification RPS RandomPacketSpraying CONGA DistributedCongestion-AwareLoadBalancing FCT FlowCompleteTime RED RandomEarlyDetection BCN BackwardCongestionNotification FECN ForwardExplicitCongestionNotification PCN Pre-CongestionNotification HPQ HighPriorityQueue LPQ LowPriorityQueue VI 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 前言 《“十四五”数字经济发展规划》中指出数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。 随着数字经济的持续发展,算力需求呈爆发性增长,逐步成为新时代的核心生产力。算力的发展带动了网络的变革,构建了高效、灵活、敏捷的数据中心网络新型基础设施,成为算力网络驱动和演进的关键。 远程直接内存访问(RemoteDirectMemoryAccess,RDMA)网络是一种高性能网络传输技术。通过绕过操作系统内核,RDMA可以直接在网络适配器和内存之间传送数据,从而减少了数据传输过程带来的延迟和CPU开销,提高了数据传输的效率和吞吐量。近年来,高性能网络广泛应用于高性能计算、云计算、大数据处理等领域,成为当下网络领域的研究热点之一。 高性能网络的重要性在于,为各种应用提供了快速、可靠、安全的数据传输能力,并将数据中心、云计算和大数据处理等领域的计算资源、存储资源和网络资源紧密结合,提高了整个系统的效率和性能。同时,高性能网络还可以支持更多的应用和服务,促进了科学研究、产业发展和社会进步。因此,高性能网络的发展和研究是当前网络领域的重要方向。 1 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 本白皮书通过阐明和分析高性能网络技术发展的过程与现状,以网络拥塞这一关键问题展开详述当前业界拥塞管理控制技术的架构体系,并聚焦拥塞管理控制过程中面临不同需求所产生的拥塞检测机制。本白皮书旨在通过对拥塞检测技术的研究,推动高性能网络技术的深入发展、生态链建设和产业落地。 2 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 一、高性能网络的机遇与挑战 在需求端强力驱使下,过去的10年中,数据中心网络链路传输带宽经历了从1Gbps到100Gbps的快速增长,并且这一增长趋势仍在持续。因此,作为未来数据中心服务的提供者,云计算厂商面临着越来越严苛的数据中心网络建设需求。 目前,传统数据中心应用的TCP/IP网络已经难以高效地满足新的需求。一方面,快速膨胀的链路速率导致了极高的CPU占用率,每增加一个用于TCP网络传输的CPU资源意味着云计算厂商能够出售的虚拟机减少了一个,这将降低整体的经济效益。另一方面,机器学习、搜索等业务所要求的超低的网络延迟(低于10us/跳),传统的TCP/IP协议的性能是很难达到的。 为解决这一问题,远程直接内存获取(RemoteDirectMemoryAccess,RDMA)技术开始逐渐广泛地应用于数据中心网络中(本文提及的RDMA无损网络针对更广泛应用的以太网络,如无特殊声明,适用协议为RoCEv2)。 相较于传统的TCP/IP,RDMA有着如下的优势: 1)降低了CPU占用率。数据传输过程不再需要CPU的持续介入,而是通过硬件卸载的形式完成数据传输。 2)降低了传输时延,避免了数据拷贝过程中频繁的用户态和内核态切换。因此,通过硬件卸载、内核旁路,RDMA完成了数据传输和计算的解耦,从而实现高效的并行计算处理。 3 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 正因为以上的技术优势,高性能网络已经成为云计算领域应用广泛核心基础设施之一。据公开文献[1]显示,在微软Azure存储集群中,RDMA流量已经占据了超过一半的比例。在可以预见的未来,高性能网络技术都将作为云计算领域的核心基础设施之一,深刻地影响数据中心技术格局。 图1微软Azure存储集群流量占比[1] (一)应用背景与现状 随着云计算技术的发展,高性能网络的应用场景日益增多。本节主要从分布式云存储、内存池化、键值存储、智算中心四个方向的应用,对高性能网络的应用场景和应用现状进行概述。 1.分布式储存场景 分布式存储是云计算中的一个核心应用。各家云厂商都会提供高达百万输入/输出操作每秒(IOPS)的高性能存储实例,旨在满足对性能要求极高的应用场景。 4 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 由于百万IOPS云硬盘需要同时处理大量的读取和写入请求,这就要求了网络要提供极高的吞吐量和极低的响应时间。因此,主流云厂商普遍选择RDMA作为高性能分布式存储的网络解决方案,如公开文献中阿里云、微软云等关于分布式云存储的工作[1],[2]。 图2云存储基本架构图 阿里云EBS云存储中应用的阿里自研网络协议栈Solar[3],对云存储IO延迟进行了全面优化。论文中给出了EBS产品详细的网络延迟性能测评。图3中的数据为阿里云超过10万个计算节点一周时间的测试结果。在图中,Kernal是传统的TCP/IP协议,Luna是用户态加速协议栈,Solar是阿里自研的RDMA网络,FN是计算是存储的前端网络,BN是存储集群后端网络,SSD是落盘网络,SA是阿里自研的SPDK软件。该实验很好的对比了内核态、用户态、RDMA对于存储业务的影响。可以看到,整体IO延迟性能上,SolarRDMA 5 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 协议有明显的优势。同时,RDMA网络协议栈还在很大程度上改善了整个网络的长尾时延问题,性能实现了数量级的提升。 图3阿里云EBS网络性能对比测试 2.内存池化场景 图4内存池化的分布式数据中心 现有的数据中心是通过服务器构建的,每个服务器紧密集成了计算任务所需的各种资源(CPU、内存、存储)。虽然这种以服务器为中心的架构已经持续使用了几十年,但最近的研究表明,未来即将出现一种向分解式数据中心(DisaggregatedDatacenter,DDC)转变的范式。其中,每种资源类型都作为独立的资源池进行构建,而网络结构则用于连接这些资源池[4]。 6 数据中心高性能网络拥塞检测技术白皮书(2023年)ODCC-2023-03004 资源池化的一个关键的促进(或阻碍)因素将是网络。因为将CPU与内存、磁盘分解开来,原本需要在服务器内部进行的资源间通信,而现在必须通过网络进行。因此,为了支持良好的应用级性能,网络结构必须提供低延迟的通信以应对这种负载更大的情况。 因此,RDMA高性能网络作为一个解决方案在内存池化的场景已经有广泛的研究[5],[6]。RDMA有效地