编写单位(排名不分先后) 中国电子技术标准化研究院鹏城实验室 北京航空航天大学华为技术有限公司 中国移动通信有限公司研究院中国电信股份有限公司研究院中国联合网络通信有限公司研究院上海依图网络科技有限公司浪潮电子信息产业股份有限公司飞腾信息技术有限公司 上海商汤阡誓科技有限公司上海天数智芯半导体有限公司摩尔线程智能科技(北京)有限责任公司上海燧原科技有限公司 上海登临科技有限公司北京登临科技有限公司 西安未来人工智能计算中心成都智算中心 青岛人工智能计算中心武汉人工智能计算中心 沈阳人工智能计算中心大连人工智能计算中心 中原人工智能计算中心河北人工智能计算中心南京人工智能计算中心 编写组成员(排名不分先后) 范科峰 董建 张群 徐 洋 鲍 薇 张琦 余跃 张叶红 董一川 栾钟治 谢海波 丁宝贵 曹晓琦 包振忠 聂永丰 孙锡军 崔金 张超 王迁涵 张婷婷 魏华 雷波 周舸帆 何琪 曹畅 张岩 李建飞 赵春昊 许源 李柏宏 康真健 王大伟 谷潇聪 田绍清 郭文 余雪松 张钰勃 董龙飞 袁兆凯 姚建国 张亚林 张明洁 慈红斌 陈衡哲 汪宇波 刘明 杨增君 穆勤学 目录 1数字经济与算力建设1 1.1算力建设助力计算中心高质量建设1 1.2通过有效算力实现“节能”+“增效”双轮驱动,促进计算 中心高质量建设2 2计算中心算力评测现状4 2.1计算中心算力类型4 2.2计算中心算力评测方法5 3有效算力评测体系与应用7 3.1有效算力的内涵7 3.2有效算力评测体系11 3.2.1有效算力指标CUE11 3.2.2有效算力指标CUE的计量方法11 3.2.3有效算力指标CUE的测试集与测试工具13 3.3有效算力的应用场景15 3.3.1人工智能计算中心16 3.3.2一体化大数据中心17 3.3.3超算中心21 3.3.4算力网络22 4有效算力的标准与评测进展25 4.1人工智能场景有效算力标准现状25 4.2通用场景有效算力标准现状26 4.3超算场景有效算力标准现状26 5大力推进有效算力评测体系建设28 5.1建议政策导向有效算力的先行先试28 5.2建议加快指标体系的标准化和工具化29 5.3建议通过组织承载并进行榜单发布29 6结语31 核心表达 牵引以有效算力的衡量方式进行计算中心新型基础设施高质量建设 (含人工智能计算中心、一体化大数据中心、超算中心等),达到以业务应用为牵引、以全栈优化为手段、以节能增效为目标的计算中心建设和评测体系,提升计算中心新型基础设施建设的质量,以支撑数字经济等宏观政策与顶层设计落地。 白皮书内容 白皮书提出有效算力和有效算力指标的概念。并给出有效算力的内涵、定义、计量和评测方法,及有效算力和有效算力评测指标体系的应用场景、标准进展与规划。白皮书内容将根据技术的发展逐步迭代,本篇内容主要聚焦面向集约化建设的大型计算中心。 1数字经济与算力建设 数据和算力资源是数字经济时代区域和国家竞争力的核心战略资源。随着信息技术的快速发展,全球数字经济新型基础设施建设格局正面临深刻改变。 数字经济呈现全新的运行规律。以数据流动和处理的自动化,化解复杂系统的不确定性,实现资源优化配置,支撑经济高质量发展的经济新业态。 1.1算力建设助力计算中心高质量建设 2018年诺贝尔经济学奖获得者WilliamD.Nordhaus在《计算过程》一文中对算力进行定义:“算力是设备根据内部状态的改变,每秒可处理的信息数据量”。《泛在算力:智能社会的基石》结合众多权威定义中算力的特征,将算力定义为设备通过处理数据,实现特定结果输出的能力。 算力的主要载体之一是计算中心等新型基础设施。高质量的计算中心建设,是支撑数字经济高质量发展的重要手段,这在人工智能、云计算、区块链、大数据等数字经济重点领域尤为明显。与此同时,计算中心的高速增长也带来了一系列能源消耗问题。高质量建设计算中心,通过“节能”、“增效”两手抓以应对能源消耗问题,提升算力质量。 以计算中心为代表的算力基础设施,其算力总量1、算力效率2是新基建的主要抓手。我国经过多年信息化工作的推进与积累,计算中心产业已初具规模,同时随着新基建的快速推进,我国计算中心产业呈现出基数大、增速高的局面,在算力总量上仅次于美国处于全球第二位,但算力效率与应用水平上对比美国仍存在较大差距。计算中心建设需要从“靶场思维”走向“战场思维”转变,着眼未来战略新兴行业布局,适度超前,前 1算力总量:以全球服务器、芯片出货量统计的规格算力总量 2算力效率:算力的使用效率 -1- 计算中心有效算力评测体系白皮书 瞻筹划,置身未来,围绕“算力效率”建设新一代算力基础设施。 计算中心能耗总量持续增加。过去十年间,我国计算中心整体用电量以每年超过10%的速度递增,预计从2020年到2030年,计算中心用电量占全社会用电量的比例从2.7%增长至3.7%。2018年全年共消耗1608.89亿千瓦时电量,超过整个上海市用电量。计算中心是未来为数不多能源消耗占社会总用电量比例持续增长的行业,因此,计算中心行业积极践行低碳节能,为我国的绿色环保事业贡献力量。 促进我国计算中心低碳技术转型与高质量发展。集中力量攻克间接蒸发冷却、有效算力提升、能源互联网、碳捕集利用与封存技术(CCUS)等技术,通过节能技术与增效技术融合,促进计算中心向低碳、绿色、循环方向发展。 计算中心高质量建设,需要合适的算力评测体系。计算中心建设受到数字经济高质量发展要求的驱动,对计算中心高质量建设提出更高要求。因此,如何有效评价一个计算中心建设的质量,如何牵引技术体系的高质量发展,亟需建设一个合适的算力评测体系。 1.2通过有效算力实现“节能”+“增效”双轮驱动,促进计算中心高质量建设 3 数字经济高速发展带来的是计算中心的快速扩张,而计算中心是未来为数不多的、能源消耗占比持续增长的行业(过去十年间,我国计算中心整体用电量以每年超过10%的速度递增,预计从2020年到2030年,计算中心用电量占比从2.7%增长至3.7%;以10年为期,电费占计算中心总成本的60%3)。 数据来源:国网能源研究院、36氪研究院-新基建系列之:2020年中国城市数据中心发展指数报告 1数字经济与算力建设 通过计算中心的“绿色化、集约化、算力多样化”,实现“清洁化、规模化、综合化”的转型发展路径。计算中心作为需求侧载体需要坚持节能、增效双轮驱动,通过节能技术创新、计算架构创新、软件架构优化等手段,助力节能减排目标有效达成。 计算机系统需要依靠各个部分软硬件整体协同才能在应用中发挥最大的能力,这并不是各个部分的机械组合或简单相加。因此,单纯堆砌每个部分的能力,并不能使整个系统获得最大收益。一个集群系统需要从全栈的角度进行软硬件协同设计与优化。 有效算力的提出是计算中心高质量建设的有益牵引。 ●有利于计算中心高质量规划:通过代表性的业务性能分析与评测,利于数据中心建设者的对IT设备的提前规划设计。 ●有利于计算中心建设的节能、增效:通过不同应用程序的综合评测,提升数据中心在单位能耗下的性能表现,实现节能+增效的效果。 ●有利于促进基础软件的发展:通过包括操作系统、数据库、加速库、数学库、系统调度、云平台软件等的基础软件优化,可大幅提升应用软件在系统硬件上的性能表现,利用基础软件充分释放芯片和硬件系统算力。 ●有利于呈现系统的全栈优化:随着摩尔定律的失效,依靠芯片单核性能不断提升来提升硬件能力的时代已经过去,现代计算中心早已走向了集群系统,涉及到计算、存储、网络以及软件中间的配合和协同。软硬件全栈优化,是通过软件技术充分释放硬件计算能力的必要手段。例如通过算法优化、软件运行时调优、网络通信优化、芯片指令优化、编译器优化等措施,可实现计算效率的倍增。软硬件联合设计与优化,是面向业务需求进行高质量算力基础设施设计、算力表现优化的必要有效手段。 计算中心有效算力评测体系白皮书 2计算中心算力评测现状 2.1计算中心算力类型 从1.1节算力的定义可以看出,算力体现了对计算、存储、网络等计算中心IT基础设施完整能力的刻画,且具有多样性的特点,背后是多样性业务的需求。根据目标处理的业务对象,算力一般可分为通用算力、人工智能算力以及超算算力3种指标类型。 通用算力以CPU承载为主,以整型计算与逻辑处理为代表,并辅以浮点计算。主要面向的是通用软件应用,有着复杂的逻辑。其计算模型主要是逻辑运算,有着不规则的数据结构、不可预测的存取模式、递归算法以及分支密集型算法。其硬件结构中70%以上晶体管用于构建控制单元和缓存,计算单元从几十个到上百个。 人工智能算力以NPU/TPU/GPU承载为主,其中训练以FP16、FP32、TF32等半精度浮点、单精度浮点计算与张量处理为代表,推理以INT8、FP16、BF16为代表。主要面向的是特定场景,比如基于人工智能的图像识别、语音识别等,其逻辑简单、计算密集、并发任务高。其计算模型主要是并行数据计算,面向规则的数据结构(数组、矩阵类型的数值),具有可预测的存取模式。其硬件结构中70%以上晶体管用于构建计算单元,计算单元从几千到几万个。 超算算力以CPU/GPU承载为主,以FP64双精度浮点计算与矢量处理为代表。主要面向的是科学计算、工业计算等数值仿真场景,例如基于流体力学的天气预报、飞行器设计等。超算应用历史悠久,其业务以对物理世界的建模、数值计算为主,对精度要求高,其硬件结构对双精度计算单位要求高。 同时,在一些细分领域会存在相对独立的算力类型,如图形计算算力,以GPU/CPU承载为主,以像素填充率和几何填充率为主要指标。主 2计算中心算力评测现状 要面向的是三维可视化、云渲染等业务场景。随着VR、元宇宙等概念的兴起,这类算力存在较大的增长空间。 2.2计算中心算力评测方法 热力学温标的提出者开尔文勋爵曾提到:“Ifyoucannotmeasureit,youcannotimproveit.”即:“无法度量,就无法改进!”。这句话放在计算领域也是适用的。作为计算中心的重要组成部分--计算机系统,是影响算力的关键因素。从计算机发展的早期,就提出要对计算机系统的性能进行评估与测试。希望通过性能评估与测试,发现系统的瓶颈,帮助改善产品设计。也提出了各种各样的方法对计算机系统性能进行评估,如指令混合法、核心程序法和基准程序法等。 指令混合法:从五十年代Gibson提出的每秒平均执行的指令条数指标 (单位为MIPS,即每秒百万条指令)开始,基本思想是以各种典型指令出现的频率作为权重进行加权平均计算,也被称作指令混合法。该方法较之前单纯使用加法指令执行速度作为评价指标有所进步。随着更多数值计算(浮点运算)的出现,MFLOPS指标(即每秒百万次浮点计算)开始使用。但该方法不能反映缓存、流水线等更新的CPU体系结构特点。 核心程序法:1964年Whetstone的出现表明评价指标开始从指令的执行情况过渡到代表性功能函数或程序的执行情况。也被称为核心程序法。相关的功能函数或程序来自于最常使用的小程序段。与当前经常使用的miniapp或proxyapp有异曲同工之妙。该方法比指令混合法更能反映计算机系统的软硬件设计特点。 基准程序法:前期使用到的评价方法都相对简单,在一定程度上可以反映计算机系统的性能,但随着产品的不断迭代,系统及业务负载的复杂度均有较大提升,上述评测方法已不能满足或不能真实反映计算机系统的实际性能。因此,从业务负载的角度出发,基准程序法开始流行起来,如 SPECCPU、HPCC等。这些基准程序中的测试负载来自于实际业务场景,根据测试指标进行相应裁剪,一定程度上能够代表客户实际使用场景,对生产选型具有重要指导意义。 上述三种测试方法呈现一种递进的关系,对于计算中心建设和评测而言,应当将评价标准从“极值”走向“积分”。全面衡量计算中心的建设质量。 ClusterBench 算力评价指标逐步从单点部件能力过