新一代智算中心网络 管控运维技术白皮书 中国联合网络通信有限公司研究院 下一代互联网宽带业务应用国家工程研究中心2024年7月 前言 在《"十四五"数字经济发展规划》的引领下,我国正致力于智能计算中心的系统化发展,旨在构建集智能算力、通用算法和开发平台于一体的创新型智能基础设施。作为融合算力资源与数据处理的战略枢纽,新一代智算中心正逐渐成为推动科技创新和数字化转型的核心驱动力。 面对计算设备升级、模型训练需求增长等挑战,新一代智算中心的网络管理与运维正朝着云原生化、智能化、绿色化的方向发展。为了应对超多配置、超细粒度、超大规模和超智控制等挑战,必须实施端到端的资源协同管理、自动化部署、性能优化和故障监测等关键能力,以解决计算与网络分离运营带来的孤岛效应。 本白皮书提出了新一代智算中心网络管控运维技术体系,详细阐述了中国联通在该方向的创新思考及实践。同时,面向智算中心网络的未来演进,提出应通过数字孪生、故障自愈和管控运维智能体等方面的技术,实现网络质量、网络安全、和网络可持续发展性的统一协调维护的倡议。 最后,本白皮书展望了新一代智算中心网络管控与运维的发展前景,期待与行业同仁携手,共同推动智算中心网络的先进建设和高效运营,为数字经济的发展贡献新的力量。 联合编写单位:(排序不分先后) 中国联合网络通信有限公司研究院,下一代互联网宽带业务应用国家工程研究中心,联通集团网络部,联通集团云网运营中心,中国联通数字科技有限公司,中国联合网络通信有限公司广东省分公司,中国联合网络通信有限公司上海省分公司,中国联合网络通信有限公司江苏省分公司,华为技术有限公司,中兴通讯股份有限公司,新华三技术有限公司,北京基流科技有限公司 编写组成员:(排序不分先后) 曹畅,徐博华,韩博文,张冬月,赫罡,童俊杰,刘千仞,张屹荥,康凯,文湘江,胡效赫,辛奇,李婧颖,敬阳,林观康,罗彪,曾楚轩,杜量,廖思忆,林建森,王俊敏,赵欢,严海,孙旺,吴圣伟,丁钰,汤似锦,周昆,王承锋,郑上闽,梁音 目录 1新一代智算中心网络管控运维需求1 1.1新一代智算中心发展概述1 1.2新一代智算中心网络管控运维挑战2 1.3新一代智算中心网络管控运维需求3 1.3.1精细化硬件资源管理4 1.3.2端网一体化管理4 1.3.3设备状态的可视化与监控5 1.3.4高效的故障管理与业务恢复5 1.3.5多租户需求5 2新一代智算中心网络管控运维技术体系7 2.1高性能算网平面是基础7 2.2管控运维是关键能力9 2.3智算网络大脑是未来11 3新一代智算中心网络管控运维平台关键能力13 3.1资源纳管14 3.1.1多层次拓扑可视14 3.1.2拓扑校验14 3.1.3资源的全生命周期可视化15 3.2端网配置15 3.2.1配置模板16 3.2.2一键部署16 3.2.3配置核查16 3.3状态感知17 3.3.1高精度采集与数据分析17 3.3.2基线预测与异常检测18 3.4故障定位18 3.4.1自动巡检19 3.4.2慢节点识别与优化19 3.4.3随流检测20 3.4.4故障隔离21 3.4.5作业恢复与CKPT21 3.4.6持续监控与自我修复22 3.5优化调度22 3.5.1端网协同的拥塞控制优化22 3.5.2端网协同的路径规划24 3.5.3集合通信优化24 4新一代智算中心网络管控运维关键技术展望26 4.1智算中心网络数字孪生26 4.2故障自愈28 4.3管控运维智能体28 5总结与展望31 6缩略语列表33 1新一代智算中心网络管控运维需求 1.1新一代智算中心发展概述 在当今日益进步的人工智能领域,大模型已经显著成为推动信息技术前沿进步的关键动力。从BERT到GPT等代表性模型的演变过程中,涌现出具备万亿到数十万亿参数的大语言模型和多模态模型。这些模型在自然语言处理、图像识别、内容生成等复杂任务中展现出了卓越的处理能力和惊人的应用价值。然而,要有效地训练这些庞大的模型,并充分发挥它们的潜力,我们不仅需要持续的算法创新,同样重要的是需要强大且可靠的算力及网络支持。新一代智算中心,作为算力资源和数据处理的集中枢纽,正逐步成为推动科技创新和支撑数字化转型的关键基础设施。这些智算中心不仅负责大规模数据的处理和高复杂度计算任务,还集成了先进的机器学习与深度学习算法,向各行各业提供强大的智能化支撑。2023年10月8日,工业和信息化部联合中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等五部门共同发布了《算力基础设施高质量发展行动计划》。该计划提出,新型的算力基础设施将信息计算力、网络运载力、数据存储力整合在一起,不仅能实现信息的集中计算、存储和传输,还具备智能化、安全可靠、绿色低碳等多种先进特性。这对于促进产业的转型升级、推动国家的科技创新、满足人民对美好生活的向往,以及实现社会的高效能治理,均具有深远的意义。 在新一代智算中心的持续发展中,智能化的运维管理、云原生技术的应用、和绿色能源技术的集成,已成为其核心发展方向。这些技术的综合应用,正在推动智算中心向更高效率、更环保、更智能化的方向发展。新一代智算中心需要具备支持超大模型训练的能力,形成足以处理万亿参数级别模型的超大规模有效算 力。通常,这种超大规模算力需要从数千至数万张高性能GPU卡或人工智能计算加速卡的集成应用。这些计算卡必须协同作业,以提供充足的计算能力来应对模型中海量参数的处理和更新需求。尽管拥有庞大的计算资源,如何高效地管理和利用这些资源,仍是摆在我们面前的一个重大挑战。 1.2新一代智算中心网络管控运维挑战 在新一代智算中心网络的建设和管理过程中,管控运维面临着前所未有的挑战。这些挑战主要体现在以下四个方面: 图1新一代智算中心网络管控运维挑战 (一)超大规模 为了支撑具有千亿至万亿参数的大模型,智算中心需要具备千卡、万卡级别的计算能力。这种超大规模的硬件集群管理,对运维团队的协调能力、故障恢复能力和系统稳定性提出了更高的要求。 (二)超多配置 智算中心的硬件环境复杂性极高,涉及到同厂家或异厂家的GPU、CPU、PCIeSwitch、NVSwitch、网卡、光模块、交换机等多种设备的配置和管理。这 些设备的多样性和复杂性要求运维团队具备跨领域的专业知识,能够处理从硬件选择、配置到优化的全方位问题。 (三)超细粒度 随着大模型计算的普及,业务同步和流量管理的精度要求日益严格,甚至达到了微秒量级。这意味着运维系统必须能够进行细粒度的监控和调度,以确保计算任务的高效执行和资源的合理分配。 (四)超智控制 为了智算中心网络能够尽可能地承接大训练量的智算任务,需要对于网络设备进行更加智能化的控制和调度。比如集中控制对网络设备拥塞指标的水线设置,通过智能识别和分析历史流量和数据,对水线进行动态全局调整,从而极大增强网络吞吐能力。通过网络负载的全局智能化的负载分担计算,可以显著增强网络处理大规模训练任务的能力。 面对这些挑战,新一代智算中心网络的管控运维技术需要不断创新和发展,以适应日益增长的计算需求和复杂的运维环境。这包括但不限于采用先进的自动化配置和管理工具、智能化运维支撑系统、精细化的实时监控策略和高效的自动化故障恢复机制。此外,还需要加强专家系统能力,提升专家系统对新技术的掌握和应用能力,确保智算中心网络的稳定运行和高效管理。 1.3新一代智算中心网络管控运维需求 新一代智算中心网络对管控运维系统提出了更高级别的要求和挑战。这些要求不仅反映了技术的进步,也突显了运维策略的创新必要性。 图2新一代智算中心网络管控运维需求 1.3.1精细化硬件资源管理 首先,对于硬件资源,新一代智算中心需要实现精细化管理,以提升整体性能和资源利用率。这包括对中心内部的CPU、GPU、DPU、存储设备和网络设备等关键硬件的全面监控与精确管理。通过高级的资源管理工具,可以确保每一项资源都被充分利用,同时降低能耗和减少维护成本。 1.3.2端网一体化管理 端网一体化在技术层面为新一代智算中心网络管控运维平台带来了显著的效率和安全性提升。通过集成端侧设备与网络资源的监控,实现了数据和操作的统一化管理。这种整合避免了网络孤岛的产生,即由于缺乏整合导致各个设备或网络部分无法交换信息,从而确保了信息流的连贯性和完整性。自动化技术减少了对人工操作的依赖,降低了出错率,并提高了操作的一致性,而数据分析和机器学习的应用则使平台能够预测和防御潜在的故障和安全威胁。此外,实时响应能力和动态配置功能确保了系统能够快速适应不断变化的网络负载和业务需求,并保持系统稳定运行。这些技术的综合运用极大地提升了智算中心运维的整体性能和安全水平,为企业带来了更高的运营效率和更好的用户体验。 1.3.3设备状态的可视化与监控 此外,智算中心网络的设备状态可视化是提高运维效率的重要手段。通过实时监控系统,运维团队可以实时获取关键硬件的运行数据,例如,GPU的功率消耗、温度监控以及交换机链路带宽的实时数据分析,都是确保设备运行在最佳状态的关键指标。这不仅有助于快速识别问题所在,还能预防潜在的故障,确保系统的稳定运行。 1.3.4高效的故障管理与业务恢复 此外,面对可能发生的计算资源和网络设备突发状况,高效的故障管理和快速的业务恢复机制至关重要。智算中心应配备先进的故障预测工具与自动化故障恢复系统,这些系统可以基于历史数据和实时性能指标,预测并识别潜在的故障点。一旦检测到故障,自动化的故障解除和业务恢复流程可以迅速启动,减少系统的停机时间,确保业务的连续性和数据的完整性。 1.3.5多租户需求 随着集群规模扩大,未来的智算中心将服务于多元化用户群体,这些用户,尽管需求各异,将共享同一智算中心资源。多租户环境中,自动化部署工具对于快速、高效、准确地为不同租户配置和更新服务变得至关重要。 自动化工具能够自动执行多租户隔离的配置管理、资源分配、以及安全策略的应用,从而在保证服务质量和安全性的前提下,实现租户间的快速切换和资源调整。模块化设计原则使每个服务组件都能独立操作,同时支持在多租户环境中的资源共享。 通过采用分布式架构和容器化技术,智算中心能够灵活地为每个租户定制服 务模块,这种灵活性允许根据用户的特定需求快速添加、修改或替换服务模块,而不会对其他租户的运行效率造成影响。这种设计不仅能提高资源的利用效率,而且显著增加了服务部署的灵活性。通过这两种技术策略的实施,智算中心可以有效地适应业务的快速变化,同时为不同租户提供定制化、高效和安全的计算资源和服务,这不仅有助于智算中心保持其竞争力,也能做到对市场变化的快速响应。 综上所述,新一代智算中心网络的管控运维系统需要在硬件资源管理、端网一体化管理、设备状态监控、故障处理与业务恢复效率以及多租户管理等方面实现全面提升。这不仅能提高智算中心的运行效率,也可以为用户提供更加稳定和可靠的服务。 2新一代智算中心网络管控运维技术体系 图3新一代智算中心网络技术体系 2.1高性能算网平面是基础 (一)算网基础设施 算网基础设施部分不仅包括了网络设备、计算设备、存储设备等关键物理组件,还涵盖了这些组件之间的高速互联网络,这些物理组件是智算中心运行的基石。其中网络设备负责数据的传输与分发,智计算设备提供必要的处理能力,而存储设备则保障数据的持久化存储与快速访问。 算网基础设施构成的多样化,既包括直接部署在网络中的物理计算服务器,也涵盖了集成于服务器中的硬件加速器,如专为并行处理和深度学习优化的GPU和TPU。这些硬件加速器显著提升了处理大规模数据集和复杂计算任务的能力。此外,智算中心的算网基础设施还包括为大模型分布式训练特别优化的软件组件。这些软件组件通过智能调度、负载均衡和资源管理等技术,确保了计算 任务的高效执行和资源的最优分配。 在设计算网基础设施时,智算中心同样重视网络连接的重要性。通过采用高速以太网或InfiniBand,实现组件间的紧密集成和高效通信,从而提升整体的计算性能和相应速度。智算中心的算网