算网大脑白皮书 (2022年) 中国移动通信集团有限公司 前言 随着社会数智化转型不断深入,算力规模出现爆发式的增长,算力供给方式向集群生态转变,为促进算力和网络的深度融合发展,中国移动提出算力网络一体化信息基础设施和信息服务体系。而算网大脑作为算力网络的编排管理核心,通过人工智能技术实现算网智能感知、智能编排调度、算网自智,促进算网一体、算网共生发展。 本白皮书旨在提出中国移动对于算网大脑的愿景、发展路径、关键技术、体系架构和产业倡议。希望能够为产业在规划设计算网大脑相关技术、产品和解决方案时提供参考和指引。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1.算网大脑愿景1 1.1驱动力1 1.2愿景及定位3 2.算网大脑发展路径4 2.1初始期:构筑算网大脑雏形,双入口协同编排5 2.2成长期:构建统一算网大脑,融数注智6 2.3成熟期:多要素感知融合统一,体系化智能升级6 3.算网大脑关键技术7 3.1多要素融合编排8 3.2原生编排8 3.3算网感知10 3.4算网智能10 3.5算网质量保障11 3.6算网能力开放12 4.算网大脑体系架构和功能13 4.1构建思路13 4.2设计原则14 4.3体系架构15 4.4系统功能18 4.4.1算网大脑能力开放中心18 4.4.2算网编排中心20 4.4.3算网智慧中心21 4.4.4算网调度中心21 4.4.5算网感知中心22 4.5部署架构23 5.产业倡议24 缩略语列表27 参考文献29 1.算网大脑愿景 1.1驱动力 数字经济的浪潮席卷全球,算力已成为全社会数智化转型的基石,直接影响数字经济的发展速度,决定社会智能的发展高度。随着数智化转型的不断深入,算力需求的不断增加,算力规模将出现爆发式的增长。据IDC预测,2025年全球物联网设备数将超过400亿台,产生数据量接近80ZB,预估未来五年全球算力规模将以超过50%的速度增长,到2025年整体规模将达到3300EFlops[4]。这其中,人工智能、边缘计算等新型算力的占比不断增长,据IDC综合15个国家的算力支出来看,AI算力支出占总算力支出从2016年的9%增加到12%,预计到2025年将达到25%。全球边缘计算服务器支出占总体服务器比重将从14.4%提升到24.9%[5]。 与此同时,算力的供给方式也正在从单点生态向集群生态迈进,算力服务提供的不仅仅是单台设备的计算能力,还包括集群系统的整体算力、存储、网络等资源,即集群的整体有效协同能力。面对算力和网络的深度融合发展以及ICT基础设施面向云网融合、算网一体的技术演进趋势,2021年11月中国移动发布 《算力网络白皮书》,提出新型的一体化信息基础设施,构建“连接+算力+能力”的新型信息服务体系。 网络化算力需要与之匹配的中枢调度决策系统,为新型信息基础设施对外一体化服务提供能力支撑,其主要需求和技术驱动力来自于如下几个方面: 1.随着算力需求的不断增长、算力供给方式的改变以及以智能化、边缘计算为主的新型业务的发展,传统的云网业务已经无法满足多样泛在、即用即取的业务需求,算力业务和网络业务呈现出深度融合的发展趋势。而现有的、各自独立的云和网编排调度系统无法满足复杂的算网融合业务的管理需求,需要一个跨算网各域的、智能化的系统来实现灵活高效的算网统一编排调度。 2.算力需求由原来单一集中的算力资源池承载向多样化的算力资源承载方式发展。根据不同的算力需求和应用场景,可以是集中化的超级计算中心;可以是泛分布的边缘、端算力节点;也可以是超算、智算和社会算力等多样化的异构算力。需要实现跨越物理分布、云边端分层协同和异构融合的算力资源统一调度。同时在网络层面,通过算、网一体化编排管理实现网随算动、以网强算。 3.算力网络包含的资源类别和资源数量规模庞大,算网业务种类丰富,因此算力网络呈现高度的复杂性。传统的数据采集、编排调度、运维方式已无法满足这种高度复杂性的算力网络的需求。在数据感知方面,需要快速获取分析全域实时的计算、存储、网络、数据资源,以及云、边、端分布情况和运行情况;在编排方面,业务的创新和随选要求算网编排层实现更加灵活、自动和智能化的编排;在运维方面,高复杂度、高动态的算网环境,以及算网的多管理对象、业务的高精度SLA需求均对运维智能提出较高要求。因此,算网编排管理需要提高算网感知、编排和运维的自动化和智能化水平,实现面向算力网络的数据智能感知、算网智能编排、智能运维。 4.当前,算力域和网络域有着各自特有的数据感知体系,并且长时间独立发展,自成一派,暂未打通融合。算力网络缺少统一、全局性的算、网状态实时采集、感知、呈现能力;亟需构建算网感知能力,逐步融合、统一现有的算、网感知体系,制定算网一体化感知模型体系。 5.算网多要素融合编排和协同调度控制依赖于对于底层基础设施的能力抽象和模型化,需要构建一体统一的算网调度机制,并促进算网基础设施具备自身独立编排能力及跨域协同编排能力,且能够对外提供标准化封装、可自动执行的原子能力和服务。 6.为了赋能算力网络价值,支撑更加丰富的算网业务场景,算网生态的构建尤为重要,需要多方合作共同参与到算网业务/服务的设计和开发中来。算网生态的构建需要算网的编排管理具备高度的开放性,支持多维度、 多层次的算网能力开放。 综上,算网大脑的总体需求是实现算力网络算力供给能力、数据处理能力、网络连通能力、业务供给能力的最大化。 1.2愿景及定位 算力网络以“算力泛在、算网共生、融数注智、一体服务”为目标,推动算力网络成为与水电一样,可“一点接入、即取即用”的社会级服务[1]。基于当前的算网业务发展,算网大脑需要适配的算网业务场景主要包括在开通阶段的以企业入云业务为代表的现有资源类算网业务;以东数西存、社会算力并网等业务为代表的弹性资源类算网业务;以东视西渲、东数西训等业务为代表的任务服务类算网业务。以及在运行阶段的动态控制类业务,比如动态扩容、动态分布等场景。算网大脑作为算力网络的编排管理系统,面对丰富的算网业务场景、高复杂度的算网环境及按需定制、灵活高效的需求特性,通过资源业务建模、模型驱动、算力解构、泛在调度等技术协同、调度算网资源,实现灵活高效的算网统一编排;通过AI、大数据、数字孪生、意图网络等新技术增强算力网络自动化、智能化能力,实现算网感知和自智,最终达成算网大脑“多样算力可泛在部署、极致网络可智能调度、算网资源可全局优化、算网能力可一体供给”的愿景。 图1-1算力网络体系架构 算网大脑定位为整个算力网络体系的“智能中枢”,是算力网络编排管理层核心,是算网共生发展的关键系统。在横向上,算网大脑对算网资源、算力服务以及算网应用等算力网络各层的多种原子能力进行抽象、封装,通过按需、灵活的组合方式及规则,形成可以由上一层调用的产品化和模块化的服务;纵向上实现从资源、服务到应用的自下而上的统一协同编排,按需组织各层能力,实现算网各层原子能力效能的最大化。算网大脑面向算网基础设施层实现算网全领域资源拉通,面向算网运营服务层实现算网融合类全业务支撑,并融合人工智能技术提升产品设计、编排调度、运维优化等方面的智能化能力。 算网大脑具有“统一编排、跨域调度、动态感知、融数注智、闭环控制、灵活开放”的主要特征: 统一编排:横向算力网络全要素资源,纵向从资源、能力、服务到应用跨层的统一协同编排。 跨域调度:对算力网络各域提供的原子能力的协同、灵活、高效地调用执行,驱动各域根据需求使能域内基础设施提供所需服务。 动态感知:对算网全领域环境的感知,包括资源、性能数据的采集和分析,既包括静态环境数据的收集,也涵盖动态环境数据的感知。 融数注智:引入人工智能、大数据分析、数字孪生等技术,融合算网全域数据感知和分析,为算网大脑提供智能分析和智能决策能力,使算网大脑成为真正的智能中枢。 闭环控制:通过问题自动发现或预测、自动定位、自动排障或优化的自动化、智能化闭环控制实现对算网业务及性能持续的保障、优化。 灵活开放:为支持更丰富的算网业务或满足更多定制化算网业务需求而具备灵活多样的、对外开放的算网大脑能力和数据。 2.算网大脑发展路径 算网大脑构建采用渐进的方式,初期主要实现云网资源和业务的统一编排调度,中远期逐步增加对端算力、社会算力的编排能力,并逐步引入AI、大数据、 意图引擎、数字孪生等技术,构建智能闭环体系,最终过渡成为覆盖网(网络)、云(云计算)、数(数据)、智(智能)、安(安全)、边(边缘)、端(终端)、链(区块链)的算力网络统一编排、调度、管理和运维系统。 图2-1算网大脑发展路径 2.1初始期:构筑算网大脑雏形,双入口协同编排 初始期构建算网大脑雏形,承接算力网络初始期需求,网络编排与云编排分别调用网络能力及云能力,同时开放互相调用接口,支撑“云+网”一体编排调度。以云为主的算网业务可以通过网入口和网络编排器直接调用云的编排调度能力,实现资源互调,同时以网络为主的算网业务可以通过云入口和云管直接调用网络的编排调度能力,满足用户一站式业务开通需求;实现云网互调的自动化和可视化。在云网双入口协同的同时,提升算和网的能力,网络方面实现云间、入云网络的自动编排调度以及网络能力的开放,算力方面实现算力的自动编排调度以及算力能力的开放。 阶段目标:构建算网大脑雏形,实现云网资源高效互调构筑算网协同编排基础,算网业务一站式开通初步构建算力网络产业生态。 服务升级:从云和网独立的运营和编排管理服务向云网一站式运营,云网协同编排产品服务升级。 技术演进:补齐当前算、网堵点断点,从云、网独立专业域的资源编排和管理向跨域跨专业的云和网资源拉通,统一编排管理、统一呈现演进、算网能力开 放。 2.2成长期:构建统一算网大脑,融数注智 在初始期高效互调、协同编排的基础上,成长期构建算网大脑,向上实现算网融合类业务支撑,向下实现一体化算网全领域资源拉通;拓展算网编排对象的范畴,纳管边缘云、三方云、端算力和社会算力、国家算力枢纽等不同的集中或分布算力;算网编排管理和决策、算网感知与AI技术的全面融合,实现算网资源智能感知、智能规划、智能编排及自优化运维。 阶段目标:构建算网大脑,融数注智,实现多样化算力、分布式算力与网络深度融合、智能化协同编排,促进算力网络走向成熟。 服务升级:从单一化、场景化编排服务向多样化定制化的算网融合编排产品服务升级;从手工化、自动化运营运维到智能化闭环运营运维服务升级。 技术演进:单一和集中化算力的编排管理向多样化、分布式泛在算力和网络的融合编排调度演进;算、网资源及数据的采集和统计向算网智能态势感知演进;应用大数据、AI等技术,算网大脑向智能化编排调度演进;通过构建算网大脑智慧中心,使算网大脑中智能化技术从单一点状应用向多样、平台可规模化复制模式演进。 2.3成熟期:多要素感知融合统一,体系化智能升级 在成长期实现多样泛在算力和网络编排调度的基础上,成熟期增加对于安全、区块链等ABCDNETS其他元素的编排调度,实现覆盖算力网络全要素融合能力供给;算网大脑体系化人工智能升级,形成算网大脑编排、调度、感知的完整智能体系,最终演进为超级算网大脑。 阶段目标:实现覆盖网、云、数、智、安、边、端、链多要素融合能力供给,构建完整算网大脑生态体系和实现面向全领域体系的算网一体、在网计算、算智共生的技术形态。 服务升级:从运营商通信领域服务向全行业、跨专业领域算网泛在服务升级; 技术演进:从多样算力和网络资源的融合编排向ABCDNETS全覆盖的演进;单点智能技术向体系化人工智能的技术演进并通过意图引擎、数字孪生、算力路由等新技术的引入,实现向算网一体、在网计算、算智共生的技术演进。 3.算网大脑关键技术 算网大脑作为算力网络编排管理层的核心系统,需要在编排、调度、数据和运维管理各方面实现包括多要素编排、原生编排调度、算网感知、算网智能、算网质量保障和