您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国电信]:分布式智算中心无损网络技术白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

分布式智算中心无损网络技术白皮书

信息技术2024-08-26-中国电信陈***
分布式智算中心无损网络技术白皮书

分布式智算中心无损网络技术白皮书 智算网络系列技术白皮书 分布式智算中心无损网络 版权声明 本白皮书版权属于中国电信股份有限公司研究院及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:中国电信股份有限公司研究院等”。否则将违反中国有关知识产权的相关法律和法规,对此中国电信股份有限公司研究院有权追究侵权者的相关法律责任。 编写说明 主要编写单位: 中国电信股份有限公司研究院、中国电信股份有限公司北京分公司 主要编写人员(排序不分先后): 傅志仁、雷波、顾鹏、叶平、王江龙、李聪、解云鹏、王学聪、李云鹤、冀思伟、刘宇旸、吴楠、张越、马小婷、周舸帆、唐静、王轶、张勇 高级顾问(排序不分先后):张文强(中国电信集团公司)罗锐(中国电信北京分公司)史凡(中国电信集团公司)胡芳龙(中国电信集团公司) 撰写团队联系方式: 中国电信股份有限公司研究院解云鹏 010-50902166 xieyp6@chinatelecom.cn 前言 2024年3月,政府工作报告中首次提出开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。这意味国家将加强顶层设计,加快形成以人工智能为引擎的新质生产力。随着这一行动的深入推进,人工智能将在推动产业升级、促进新质生产力加快形成等方面发挥重要作用。 随着人工智能的浪潮来袭,以大模型为代表的AI方案逐步深入千行百业,算力需求日益攀升,智算基础设施的重要性进一步凸显。然而,在智算基础设施建设过程中尚面临组网、通信、能耗、成本等多重挑战,行业要“以网强算”,通过无处不在的网络资源,补齐单点算力规模不足的差距,夯实智算业务发展基础。 本白皮书聚焦AI大模型下智算业务的典型需求和特征,对分布式智算中心无损网络方案、核心技术展开深入研究,并积极推动分布式智算中心互联现网验证。我们希望通过白皮书的研究与分析,得到更多同行的参与和讨论,同时也期盼与众多合作伙伴一起携手并进,汇聚行业力量,共同打造大规模、高带宽、高性能以及智能化的AI大模型分布式智算中心网络。 目录 1.分布式智算中心无损网络场景及需求4 1.1.智算业务的典型需求和特征4 1.2.分布式智算中心无损网络场景4 1.3.分布式智算中心无损网络挑战6 1.4.业界研究概况7 2.分布式智算中心无损网络解决方案设计9 2.1.方案设计原则9 2.2.分布式智算中心无损网络总体架构10 2.3.方案技术特征12 3.分布式智算中心无损网络核心技术14 3.1.异构网络集合通信优化技术14 3.2.网络级负载均衡技术16 3.3.精准流控技术17 3.4.光模块通道抗损技术20 3.5.流可视化,全流丢包检测技术20 3.6.大带宽传输技术21 3.7.波长级动态拆建技术22 3.8.高性能WSON技术23 3.9.告警压缩,根因识别技术24 4.典型实践26 4.1.背景与需求26 4.2.试验概述26 4.3.试验结论28 5.总结和展望28 附录A:术语与缩略语30 附录B:参考文献31 1分布式智算中心无损网络场景及需求 1.1智算业务的典型需求和特征 从Transformer问世至2023年ChatGPT爆火,人们逐渐意识到随着模型参数规模增加,模型训练的效果越来越好,且两者之间符合Scalinglaw规律。当模型的参数规模超过数百亿后,AI大模型的语言理解能力、逻辑推理能力以及问题分析能力迅速提升。例如,拥有1.8万亿参数的GPT-4在复杂问题的处理能力方面远超GPT-3,谷歌的Gemini大模型性能也超越其早期版本。但提升模型参数的规模和性能后,AI大模型训练对于网络的需求也会发生巨大变化。 在大模型训练场景下,随着参数规模从亿级提升到万亿级别,算力需求呈现“爆发式”增长。据统计,2012~2022年模型算力需求每年增长4倍,而2023年后模型的算力需求以每年10倍的速度增长。这意味着训练超大AI模型需要数千/万卡GPU组成的集群高速互联。此外,机内GPU通信和机外集合通信将产生大量通信需求。例如,千亿级参数的大模型并行训练所产生的集合通信数据将达到数百GB量级。若要在极短时间内完成参数交换,将对GPU与GPU间、GPU与网卡间、网卡与网卡间的超高带宽互联提出较高要求。网络拥塞和丢包也会严重影响GPU计算效率,据实验统计,0.1%的网络丢包率就会带来50%的算力损失,因此提升通信性能可有效释放智能算力。 AI大模型训练/推理需要智算网络具备超大规模、超高带宽、超低时延、超高可靠等关键特征。如何设计高效的集群组网方案,提升GPU有效计算时间占比(GPU计算时间/整体训练时间),对于AI集群训练效率的提升至关重要。 1.2分布式智算中心无损网络场景 超大规模GPU集群成为大模型训练的必要条件,而算力需求的指数级增长对AI基础设施带来极大挑战。在构建万卡甚至十万卡集群时,由于机房空间/电力不足、机房散热等问题,智算中心单点算力规模建设受限。 为破解智算基础设施供给难题,中国电信践行“以网强算”的技术路线,即利用无处不在的网络资源弥补小规模智能计算的差距,再结合集中式的算力调度 策略,提升整网智算利用率。目前,“以网强算”已成为国际格局和产业环境下中国最具优势的发力点。 “以网强算”将多个智算中心互联成一个大型虚拟智算集群,通过分布式智算中心无损网络(也称RDMA拉远),实现区域内多智算中心协同计算,满足更大规模的算力需求。目前,分布式智算中心无损网络主要适用于两类场景:算 -算拉远和存-算拉远。 (1)算-算拉远场景 我国单点智算中心规模普遍偏小,规模为100-300PFLOPS的小型智算中心占比超70%,而规模超过1EFLOPS的大型智算中心仅占25%,且多由云提供商及大型企业自建,集中在京津冀、长三角和粤港澳。算-算拉远可以将区域内多个已经建成的智算中心的算力进行整合,从而无需建设超大规模集约型智算中心就能够训练更大的模型。 图1-1多智算中心合一场景 此外,单个智算节点往往会存在资源利用率不足、闲散算力资源浪费的问题。在算力使用过程中,租户算力诉求与实际部署算力往往不一致,导致算力零散在本地,智算中心算力资源碎片化。如何把零散的资源整合起来,系统优化算力基础设施,布局盘活机房,促进跨集群算力高效互补和协同联动成为充分发挥算力的关键能力。算-算拉远能够充分利用碎片资源来执行合适的任务,提升系统利用率。 图1-2碎片资源整合场景 (2)存-算拉远场景 高性能、高可靠存储是公有云最基础的服务之一。当前公有云中广泛采用存算分离架构,即计算集群和存储集群可能位于Region内的不同DC中,而互连计算集群和存储集群的网络成为实现云存储服务高性能和高可靠性的关键。存-算拉远可以将Region内的计算集群和存储集群无损互联,满足数据本地化需求,保障数据安全。 1.3分布式智算中心无损网络挑战 在探索跨智算中心构建超大规模智算集群过程中,算力和网络均遇到了诸多问题和挑战。首先,集群拉远部署相比于本地集群部署在DCN协议面需要解决时延和丢包两个难题。 (1)拉远增加网络传输时延:AI训练每轮迭代会通过集合通信进行参数同步,而集合通信内部存在多轮数据交互,以及多次跨长距通信。长距拉远后,传输距离每增加10km,通信时延增加10ms左右,对AI大模型的训练效率产生极大影响。 (2)网络拥塞丢包,使性能急剧下降:当前AI训练采用RDMA协议,而RDMA的高效率依赖于极低的丢包率。数据显示,当网络的丢包率大于10-3时,RDMA有效吞吐将急剧下降;2%的丢包率会使RDMA吞吐率下降为0。因此,要使得RDMA吞吐不受影响,丢包率必须保证在十万分之一以下,最好为零丢包。在长距拉远场景下,当网络出现拥塞时,若没有在RTT(往返时间)内及时缓解拥塞,就会发生丢包,导致一轮迭代训练时间增加,大模型的训练效率下降。 图1-3丢包影响RDMA吞吐 其次,集群拉远部署和本地集群部署相比在传输网也需要解决高带宽和稳定性难题。 (1)超大带宽、灵活组网保证长距拉远算效:在跨DC分布式训练场景中,需要提供充足的互联带宽,并根据智算中心空闲服务器数量灵活组网,避免网络拥塞,实现高效传输。 (2)高可靠机制保证AI训练的稳定:检查点(checkpoint)机制是AI训练的必要需求,主要用于在训练过程中保存模型的权重,以便在训练中断或模型更新时恢复训练,从而提高训练的效率和稳定性。网络还需要具备抗多次断纤能力,防止网络故障引起AI训练中断。 (3)故障分钟级检测及定位:模型训练期间可能受施工震动、挤压弯折、意外挖断、接头松动、老化等影响,从而导致光缆故障,训练也会随之中断。为保证训练的稳定,要求网络具备故障时分钟级自动检测和定位、分钟级提前预警的能力,以保证智算拉远训练时的高可用。 针对以上难题,若要实现长距无损传输,需要协同优化IP层和光传输层技术,构建分布式智算中心无损网络,实现多数据中心协同提供服务。在IP层,一方面可以优化集合通信算法,减少长距链路的流量传输,从而消除流量交叠现象;另一方面可以引入全局负载均衡和精准流控技术,实现多节点互联网络的无拥塞、高吞吐。在光传输层,一方面可以依托城域网或区域网延伸覆盖智算节点,并在资源不足区域新建800G/1.2T超大带宽的互联网络,构建高品质光互联;另一方面,可以提高网络故障处理能力,实现高可靠、智慧化运维。 1.4业界研究概况 大模型推动智算基础设施建设快速发展,但电力供应、机房空间成为大规模智算建设的瓶颈。业界正在积极探索将分布在多个智算中心的算力协同起来,进行跨DC的大模型分布式训练。 谷歌利用自研低成本、高性能TPUv4超级计算机(SuperPod)满足大模型训练/推理算力需求,其中每一个SuperPod可以提供1Exaflop级(每秒百亿亿次浮点运算)的运算能力。目前,谷歌已经部署了数十台TPUv4SuperPod,并完成跨多个数据中心的GeminiUltra大模型训练,此前5400亿参数语言模型PaLM 也是用2个TPUv4SuperPod训练的。OpenAI与微软也在计划建设十万甚至百万级GPU卡的算力集群,以满足GPT-6模型训练需求。但由于电力受限,预计将GPU卡分布在几个或几十个地区,并利用开放Ethernet协议替换IB协议来实现跨区域GPU之间的互联。Meta宣布推出两个具备2.4万个GPU卡的AI集群,分别采用RoCE和IB协议,并在硬件、网络、存储、性能等方面进行深度优化,以支持大语言模型如Llama3的训练。为了解决AI训练集群造价昂贵问题,Meta又提出去中心化异构训练,利用分布式、异构和低带宽互联的AI训练资源来训练基础大模型,降低训练成本。 阿里提出“双上联+双平面+多轨”的HPN7.0网络架构,该网络架构中单个Pod规模已经达到15KGPU,可满足绝大多数LLM的训练需求。为建设更大规模智算集群,设计了不同Pod之间通过核心层互连,从而在单个集群中支持超过十万个GPU节点。目前,HPN7.0网络架构已经在阿里云上线运行9个多月,实践表明LLM训练的吞吐性能相比传统数据中心网络而言提升了14.9%。百度智能云基于CENI打造了跨广域工业视觉大模型算网融合技术,依托百度自研昆仑芯以及百度文心视觉大模型,将算力、网络、大模型和应用场景融合,实现行业大模型跨广域精调、推理服务。测试结果显示,在相距超300公里的两地之间,该技术使行业大模型跨广域推理效率提升42%。此外,NTT在Mitaka和Yokosuka之间通过全光子网络(APN)搭建LLM远程训练测试环境,将训练数据保存在企业本地,而使用数百公里外数据中心的GPU进行训练,训练效果与本地的训练效果相近。 图1-4阿里HPN7.0架构 当前单点智算中心算力规模受限、算力资源碎片化严重,难以承载大规模 AI训练业务。采用跨AZ、跨Region的多个数据中心组成的AI训练集群可有效 支撑十

你可能感兴趣

hot

大规模智算中心网络技术白皮书

信息技术
开放数据中心委员会2023-10-09
hot

中国移动智算中心网络技术实践与思考

开放数据中心委员会2023-09-14