您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:2023智算中心网络架构白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023智算中心网络架构白皮书

信息技术2023-08-17百度胡***
2023智算中心网络架构白皮书

智算中心网络架构白皮书 主编单位: 合作单位: 百度智能云 度小满 专家指导委员会: 王佩龙宋飞崔永新陈存利 联合编写组: 百度智能云编写组 李兆彤史磊周磊李兆耕包贵新田晓利李玉双谢伟光陈宁刘楠马建英杨正吉靖万芳芳缪懋魏谦孙鹏甄浩洋邱帅兵多杰伦珠王俊涵高飞李书坤章琬晨徐浩姜涛敖玉龙张向辉 度小满编写组 苏阳 张伟建 朱凤元 张一 杜侃 汪宁瀚 胡东旭 引言 随着AI技术的逐步成熟和应用场景的不断丰富,人工智能产业正在迅速发展,AI相关的产品与服务也在各行业中落地和普及。企业通过人工智能技术提高生产力,进行数字智能化新范式转型的需求也更加迫切。人工智能技术目前已被广泛应用于智慧金融、智能家居、智能医疗、智能交通、智能制造等领域。 大模型技术因其良好的通用性与泛化性,显著降低了人工智能应用的门槛,其溢出效应正在加速推进新一轮的科技革命和社会产业的变革。近期,ChatGPT、文心一言等生成式人工智能应用的出现,使大模型的发展成为AI领域最重要的热点趋势,越来越多的科技巨头竞相推出千亿、万亿参数的大模型。而训练超大参数规模的大模型也给智能计算基础设施带来了前所未有的挑战。大模型的训练过程需要数千张GPU卡协同计算数周或数月,这就要求智能计算网络能够提供更强大的性能和更高的稳定性与可靠性。因此,提供一种高速、低延迟且可扩展的网络互联方案成为了智能计算领域的重要课题。 通常,大中型政务、金融及企业客户对网络安全与数据隐私保护有着更严格的要求,需要通过私有云建设模式在自有数据中心中构建自主可控的智能计算资源池,为人工智能的创新服务提供底层算力支持。智算网络作为智算中心基础设施的重要组成部分,其选型、设计和建设方案是非常关键的环节,网络架构设计的合理性直接影响智算集群的性能、可靠性与稳定性。智算网络的选型和建设阶段的典型问题包括: 1.智算网络是复用当前的TCP/IP通用网络的基础设施,还是新建一张专用的高性能网络? 2.智算网络技术方案采用InfiniBand还是RoCE? 3.智算网络如何进行运维和管理? 4.智算网络是否具备多租户隔离能力以实现对内和对外的运营? 本白皮书将分析智算业务对网络的核心需求,深入介绍智算网络的架构设计以及智算中心高性能网络的运维和运营管理方案,并结合典型实践,提供智算网络选型建议,为客户建设面向大模型的智算中心提供网络建设、运维和运营参考。 智算中心网络架构白皮书 目录 CONTENTS 01 智算业务对网络的核心需求 02 智算网络方案选型 1.1智算业务关键应用场景和案例01 1.2智算业务对网络的关键要求03 2.1InfiniBand网络介绍07 2.2RoCEv2网络介绍12 2.3InfiniBand和RoCEv2网络17 方案对比 03 物理网络架构设计 3.1传统云网络架构承载智算业务存19 在的挑战 3.2智算网络架构20 3.3智算网络可容纳的GPU卡的规模22 3.4物理网络设计典型实践25 04 智算高性能网络运维管理 4.1可视化网管系统29 4.2高精度流量采集31 4.3数据可视化展示32 4.4智能化33 4.5高性能网络运维典型实践33 05 智算高性能网络运营管理 5.1云平台产品化的多租户能力AI-VPC35 5.2InfiniBand网络的多租户方案36 5.3RoCE网络的多租户方案37 5.4通过RDMA网络提供公共服务38 5.5高性能网络运营典型实践38 06 总结和展望 总结和展望40 推荐阅读41 6 智算中心网络架构白皮书 01 智算业务对网络的核心需求 1.1智算业务关键应用场景和案例 智能计算是指利用人工智能技术和算法,对海量数据进行分析、处理和挖掘。智能计算已广泛应用于自然语言处理、图像识别、预测分析、金融科技和自动驾驶等场景。基于大模型在自然语言处理领域的出色能力,智能计算为机器翻译、文本分类、文本总结、文本创作、搜索助手、辅助编程、图像视频创作等应用场景提供强有力的技术支持。 智能计算已成为帮助企业提高效率、降低成本、打造核心竞争力所不可或缺的技术能力,其在金融和汽车行业的应用已经非常成熟。例如: ·在金融行业:智能计算应用于风险管理和控制,辅助量化交易、信用评估以及趋势预测,帮助金融机构做出更明智的业务决策。 ·在汽车行业:智能计算为自动驾驶提供高效精准的感知与识别、行驶决策与规划、车辆控制与执行,并不断进行算法优化以提高自动驾驶的安全和可靠性。 1.1.1金融风控与智能推荐 金融行业历来是数字化与智能化的先驱者,已经将人工智能技术广泛应用于各项业务中,包括智能风控、交易欺诈检测、智能客服、投资决策、信用评估、量化交易等。 金融风控是人工智能技术在金融行业中最典型的应用场景。通过大数据分析、机器学习等技术对金融交易、投资、借贷等活动进行风险识别、评估、控制和监测,对金融风险进行有效识别和预警,以保障金融机构和客户的资产安全,满足监管要求。 在金融风控领域,度小满拥有非常丰富的实践经验。度小满将大型语言模型(LLM)应用于海量互联网文本数据、行为数据、征信报告的解读,将小微企业主的信贷违约风险降低了25%。而且随着模型的迭代,大模型在智能风控上的潜力还会进一步释放。 除了智能风控领域,度小满基于生成式大模型自主生成新的数据、图像、语音、文本等信息,成为理财师、保险经纪人等金融行业从业人员的得力助手,帮助他们为客户个性化推荐理财、保险产品,大幅提升服务效率和服务体验。 1.1.2自动驾驶 得益于人工智能技术,自动驾驶技术越来越成熟。自动驾驶的渗透率呈现逐步上涨的趋势。全球知名IT市场研究机构IDC发布的《中国自动驾驶汽车市场数据追踪报告》显示,2022年第一季度L2级自动驾驶在乘用车市场的新车渗透率达23.2%,L3和L4级自动驾驶的能力也越来越成熟。 在自动驾驶场景中,每车每日会产生T级别数据,每次训练的数据达到PB级别。大规模数据处理和大规模仿真任务的特点十分显著,需要使用智算集群来提升数据处理与模型训练的效率。 重庆长安汽车股份有限公司在智算领域进行了规模化实践,建设了全新的智能车云平台和专用智算中心。当前计算能力突破100亿亿次,支撑自动驾驶的算法自研、虚拟仿真、智能网联等数字服务。智能车云平台提供统一的基础网联、数字产品、AI决策分析、智能汽车大数据四大平台能力,为用户提供智能化、远程化、个性化的车辆服务,打造更加便捷、高效、安全的车辆使用体验。 1.2智算业务对网络的关键要求 1.2.1AI模型训练和推理的核心是数据计算 在AI系统中,一个模型从生产到应用,一般包括离线训练和推理部署两大阶段。 离线训练,就是产生模型的过程。用户需要根据自己的任务场景,准备好训练模型所需要的数据集以及神经网络算法。模型训练开始后,先读取数据,然后送入模型进行前向计算,并计算与真实值的误差。然后执行反向计算得到参数梯度,最后更新参数。训练过程会进行多轮的数据迭代。训练完成之后,保存训练好的模型,然后将模型做上线部署,接受用户的真实输入,通过前向计算,完成推理。因此,无论是训练还是推理,核心都是数据计算。为了加速计算效率,一般都是通过GPU等异构加速芯片来进行训练和推理。 图1.AI模型训练和推理的核心是数据计算 1.2.2AI模型参数规模不断扩大 随着以GPT3.0为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。 :语言模型:中文语言模型:多模态模型:视觉模型 500 GPT-3(175B) ERNIE3.0T,itan(260B) PaLM(562B) Turing-NLG(17B) 50 V-MOE(15B) Plato-XL(11B) LaMDA(137B) PaLI(17B) T5(11B) 5GPT-2(1.5B) BERT(340M)ERNIE2.0(330M) ERNIE3.0(10B) CogView(4B) DALL-E(1.2B) ERNIE-VILG(10B) SwinV2(3B) 0.5 0.05 ELMo(90M) ERNIE1.0(110M) ViT(630M) ViT-G(2B) 2017201820192020202120222023 图2.AI模型参数演进 1.2.3大模型训练集群的网络要求 大模型训练中大规模的参数对算力和显存都提出了更高的要求。以GPT3为例,千亿参数需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。 传统训练 小模型、小样本、单卡训练 GPU0 梯度更新 反向计算 ZELOPs计算量大规模参数 大模型的变化 参数量与计算量激增 GPT-3:314ZFLOPs 175B参数 算力墙储存墙 TrainingData 前向计算 A100算力312TFLOPS 单卡需要32年需要分布式加速 千亿参数需要2TB存储单卡现存80GB,放不下需要更多储存空间 图3.传统训练和大模型的不同 分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。 (1)低时延 分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此,降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。 分布式全局加速 = 单卡加速 × 卡数 × 加速比 分布式单计算时间 = 单卡计算时间 × 卡间通信时间 图4.分布式全局速度计算公式 降低多机多卡间端到端通信时延的关键技术是RDMA技术。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。 用户态 Buffer Buffer 内核态 OS CPU旁路 Buffer OS 硬件层 交换机 Buffer 服务器 Buffer 服务器 Buffer 应用 Buffer 应用 Buffer 图5.RDMA通信示意图 Software 实现RDMA的方式有InfiniBand、RoCEv1、RoCEv2、iWARP四种。其中RoCEv1技术当前已经被淘汰,iWARP使用较少。当前RDMA技术主要采用的方案为InfiniBand和RoCEv2两种。 IBtransportprotocol IBtransportprotocol IBtransportprotocol iWARP*protocol IBnetworklayer IBnetworklayer UDP TCP IP IP IBlinklayer Ethernetlinklayer Ethernetlinklayer Ethernetlinklayer RoCEv1 RoCEv2 iWARP InfiniBandmanagement Ethernet/IPmanagement Ethernet/IPmanagement Ethernet/IPmanagement RDMA协议栈 RDMAAPI RDMAsoftwarestack RDMAapplication/ULP GreencontentdefinedbyIEEE/IETF OrangecontentdefinedbytheIBT