中国移动算力度量体系与标准化 中国移动研究院魏华 2023年12月 随着5G网络、边缘计算的规模建设,新兴应用将加速驱动数据处理由云端向边侧、端侧的扩散;边端的计算能力持续增长,算力泛在化已成趋势,多样性算力是构建新型基础平台的坚实底座。 算力类型:包含通用算力、专用算力(具有异构、高性能的特点) 算力覆盖:层级云-边-端,不只限于数据中心内 算力形态:算法抽象支持智能实现,提供算力服务,不只是硬件 X86、ARM、RISC-V 多样性算力 GPU、NPU、FPGA、ASIC 多样性算力蓬勃发展 通用 *数据来源:IDC(统计口径包含传统IDC业务及公有云) 专用 我国IDC行业市场规模及增速(亿元,%) 智能电网 AR/VR 自动驾驶 智慧家庭 云游戏 D 裸眼3 智慧工厂智能安防 智慧医疗 实现智能 算法 逻辑实现 算力 数据处理 数据 研究 H o m Treaffic Medical Agriculture Manufacture Service 提供 产生 2 评估国家社会经济运行发展的重要因素 算力是评估国家社会经济运行发展和产业发展状态的重要指标,构建合理的算力度量评价体系可以有效的支撑国家战略和产业发展,同时,算力度量还是算力网络建设的核心技术 “东数西算”工程建设国家社会数字经济发展的通信业核心运行监测指标“三年行动计划”发展目标 算力度量的驱动力 国家战略 评估产业发展状态的核心指标 •数据中心建设:数据中心建设时需要对建设规模和能力进行精准度量 •行业发展对标:依据算力度量指标建立对产业 标机制,可以推动行业竞争性发展发展 •公司发展评估:对公司算力发展情况进行评估,可以为公司战略决策提供依据 算力网络技术体系的支撑技术 泛算调度算力路由 技术 支撑算网一体算力交易 算力并网算力评测 3 算力度量的价值 建立统一高效的算力度量标准在宏观层面可以用于指导国家及地区的算力发展规划,在微观层面可以用于集群或区域内业务的调度及部署,同时,建立一致化评级方法也有利于算力并网等新技术的落地实施。 •基于算力统计结果,可以有效的指导国家及地区发展规划,确保资源的有效建设。 •不同的业务有着不同的算力需求,针对业务和节点算力的有效度量可以更高效的实现算力调度,提高算力资源的利用率。 •作为算力并网及算力交易的基础,在算力网络中需要统一的度量及评级依据。 统计价值:国家发展规划经济价值:高效的算力调度技术研究:“算力网络”基石 4 •当前对内存、存储、网络的度量标准相对成熟,但计算芯片的种类繁多(CPU/GPU/FPGA/ASIC/DPU/TPU),对于计算能力的度量缺乏统一高效衡量标准。 •面向未来差异化业务需求,需建立统一算力度量体系,关联整合映射异构计算资源,实现算力资源合理分配高效调用。算力度量体系的构建可以作为算力路由、算力调度、基础硬件资源设施评估的参考。 度量方法与应用 多样化算力资源度量 •从通信、内存、存储、计算等几个维度进行算力资源评估 •每个维度细分更多的类别,支持更细粒度的评价 节点综合能力评价 •将通信、内存、存储、计算赋予权重进行加权β,得出节点能力评价得分A •面向不同的任务,加权系数不同,得出的评价也不同 业务算力需求映射 •将业务的需求如带宽、时延等映射成为网络和计算的需求,进一步对应到节点资源的评价 用户需求 统一 A=β1Ac+β2Am+β3Am+β4As 网络时延的抖动度 计算处理时延量 计算类型体 计算量系 实际所需的算网资源 算力度量总体思路 5 算力定义及度量体系 算力定义:网络中具有计算能力的节点通过对数据的处理,实现特定结果输出的能力。在算力度量体系中,我们重点关注节点综合能力度量。其中,节点包含但不限于云计算节点、边缘计算节点、终端节点等。 业务能力度量 节点综合能力度量 异构算力资源度量 6/20 6 2022-1549T-YD算力网络算力度量与算力建模技术要求 本文件规定了面向算力网络的算网融合发展背景下,算力度量与算力建模机制的需求和总体架构,包括算力资源模型、服务能力模型、算力度量及资源映射机制、算力测试与评价等相关技术要求。 算力网络算力度量系列标准: 算力网络算力度量与算力建模技术要求 算力网络算力节点能力度量及评估方法 算力网络异构算力资源度量及计量指标 7/20 7 2022-1549T-YD算力网络算力度量与算力建模技术要求 目前存储、内存、通信三方面能力评价方式较为统一,算力网络中具体评价指标如下: 能力 通信 内存 存储 指标 网络带宽 内存容量 存储容量 DPDKL3转发能力 内存带宽 存储带宽 FIB能力 内存访问延时 每秒进行读写操作的次数(IOPS) IPSec能力虚拟网络能力防火墙损耗 8 2023-0191T-YD算力网络异构算力资源度量指标 本文件规定了算力网络中异构算力资源定义、算力资源分类、度量指标,是针对异构算力资源中计算能力的度量。本文件适用于对算力网络中异构算力资源的分类及性能评估,其中,算力资源包括但不限于CPU\GPU\FPGA等算力类型,可以用于算力网络中设备性能评估、算力并网、算力资源运营等场景。 异构算力资源定义:对于具备某种通用或者专用计算能力的硬件及其虚拟化资源都可以称之为算力资源。异构算力资源是指采用不同技术实现方式提供计算能力的硬件设施,不同的技术包括但不限于不同的系统架构,不同的指令集,不同的技术类型,不同的计算能力提供方式,例如,X86架构、ARM架构、CPU、GPU、FPGA实现的计算芯片,专用硬件计算芯片等等。 设备静态参数动态度量指标综合性能指标 名称当前主频实际内存访问带宽剩余可用核数CPU利用率内存访问延迟 名称浮点计算能力整型计算能力指令数算效能力(CE)媒体处理能力 名称型号指令集架构主频最大加速频率内核数线程数功率缓存CPU带宽内存配比RDT资源调配技术 CPU度量指标示例 9 本文件规定了算力网络中算力节点的定义、算力节点能力评价指标和算力节点能力评价方法。本文件适用于对算力网络中算力节点能力的评价,节点能力的评价结果可以用于算力网络中算力节点的建设、算力调度、算力交易以及算力运营等场景。算力节点是可以提供算力的计算节点,可以多种形态存在,包括不限于云数据中心、边缘计算中心、服务器等,可以是单个节点或多个节点组成的集群。 2023-0190T-YD算力网络算力节点能力度量及评估方法 算力节点算力规模评价指标: 计算设备数量 浮点计算能力总量 整型计算能力总量 算力节点网络能力评价指标: RDMA技术 硬件加速配置 单节点网络能力评价指标算力节点存储能力评价指标: 存储硬盘类型 存储容量 存储带宽 IOPS 算力节点有效算力评价方法 算力节点存储能力评价指标: 算力节点可信等级 数据中心评价指标 10 本文件规定了算力网络中算力节点的定义、算力节点能力评价指标和算力节点能力评价方法。本文件适用于对算力网络中算力节点能力的评价,节点能力的评价结果可以用于算力网络中算力节点的建设、算力调度、算力交易以及算力运营等场景。算力节点是可以提供算力的计算节点,可以多种形态存在,包括不限于云数据中心、边缘计算中心、服务器等,可以是单个节点或多个节点组成的集群。 2023-0190T-YD算力网络算力节点能力度量及评估方法 算力节点算力规模评价指标: 计算设备数量 浮点计算能力总量 整型计算能力总量 算力节点网络能力评价指标: RDMA技术 硬件加速配置 单节点网络能力评价指标算力节点存储能力评价指标: 存储硬盘类型 存储容量 存储带宽 IOPS 算力节点有效算力评价方法 算力节点存储能力评价指标: 算力节点可信等级 数据中心评价指标 11 问题与建议 目前,算力度量体系已初具雏形,但针对不同的应用场景仍存在各种问题。针对算力规模统计场景,统计方式已取得共识,但可获得的数据类型及来源复杂,部分数据获取困难。针对异构算力的叠加统计过程,仍存在计算精度无法统一的问题。 算力度量过程中存在的问题 •通算浮点能力值(FP32)与智算浮点能力值(FP16)精度不一致 •算力规模测算中,GPU及AI加速卡的整型能力与浮点能力无法统一累加,整型能力处理方案尚无统一共识 •有效算力评估,业务分类困难,基准业务选择尚未达成共识,缺少落地场景 •业务算力需求评估存在困难 •应用部署后,对于算力资源的使用呈现复杂的动态变化,通常采用历史经验预估,存在不准确性 发展建议 •各行业统筹发力,打通从资源层到业务层的算力度量映射 •结合业务需求和开发资源,尝试通用业务和重点业务的算力度量 12 感谢聆听,敬请指正!