数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 1 [编号ODCC-2023-06004] 数据中心电力仿真系统及其应用白皮书 开放数据中心委员会2023-09发布 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 编写组 项目经理: 晁怀颇阿里云计算有限公司工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 刘国良阿里云计算有限公司罗权阿里云计算有限公司王天应阿里云计算有限公司王宏宇阿里云计算有限公司关通阿里云计算有限公司陈光金阿里云计算有限公司吴腾雷阿里云计算有限公司陆增义阿里云计算有限公司 岳上腾讯科技(深圳)有限公司许可欣中国信息通信研究院 II 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 前言 数据中心的电力系统为IT设备提供7*24不间断的电力供应,是数据中心稳定运行的基础。为了实现7*24不间断的电力供应,数据中心电力供应架构中使用了大量的冗余备用、备自投、备自投闭锁等设计,这些设计增加了系统的稳定性和健壮性,同时也使系统的复杂性成倍增加。 为了确保系统出现故障时能快速定位和恢复、在系统进行变更或维护时能准确评估验证和规避风险,运维人员需要快速掌握这个复杂的供电系统的架构和运行逻辑。但是在生产环境下,若对系统进行带电切换则会对末端IT设备的正常供电带来风险,这时就需要一种数据中心供电模拟仿真系统,仿真系统在供电拓扑的基础上,结合供电路径遍历算法和线上化的电气综保逻辑,实现整个供电系统的模拟仿真。帮助运维人员更直观地掌握数据中心的整个供电系统,并支撑数据中心供电系统异常检测、故障根因溯源、变更风险预测、电力容量预测等关键平台能力的落地。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 III 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 目录 版权声明I 编写组II 前言III 一、术语1 二、背景与挑战2 (一)背景2 (二)挑战3 (三)目标4 三、数据中心电力仿真系统的关键技术5 (一)电力架构及拓扑5 1、电力架构及拓扑线上化难点5 2、电力架构拓扑生成方案6 (二)数据中心电力综保系统及逻辑10 (三)电力仿真系统关键算法12 1、路径分析算法12 2、容量分析算法14 3、智能告警标记算法14 四、数据中心电力仿真系统应用场景16 (一)变更智能化管控16 1、应用场景说明16 2、数字化变更范围17 3、数字化变更流程18 IV 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 (二)电力故障定位及溯源22 1、应用场景说明22 2、关键实现方法22 3、应用效果及收益23 (三)电力系统模拟演练24 1、应用场景说明24 2、模拟演练流程25 五、总结及展望28 V 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 数据中心电力仿真系统及其应用白皮书 一、术语 电气综保:是一种接于电路中,对电路中的不正常情况(电路失压、短路、断路、缺相等)起到保护作用的装置。通过其中逻辑触发相应的配电柜动作,保障系统供电正常。 备自投:备自投是备用电源自动投入使用装置的简称,英文缩写BZT。是电力系统中十分重要的自动控制单元,当系统主供电源 不论因何原因消失时,由备用电源自投装置动作,确保用电负荷不失电。由于数据中心对供电可靠性要求高,供电系统都配备了双路供电电源,当一路电源由于故障引起跳闸后,另外一路电源即可投入使用。备自投能实现系统中双电源的快速切换,在数据中心供电系统中得到广泛应用。 电气闭锁:防止误操作而导致的线路供电异常。 UPS:是一种输入输出均为交流电的数据中心不间断电源。HVDC:是一种输入交流电,输出直流电的数据中心高压直流电 源。 1 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 二、背景与挑战 (一)背景 近年来,随着互联网信息技术的高速发展,人类社会正快速迈入数字化新时代。AI、大数据、云计算这类前些年的“概念”,如今已润物无声地渗透到了我们生活中的每一处细节。它使我们生活方式改变的同时,我们对其的依赖也逐渐加深,这其中,数据中心作为承载这一切技术能力的底座和基石,扮演着无可替代的重要角色。 所以,云计算已经像水电煤一样成为我们生活中必不可少的基础设施。可以想象,如果家里断电、断水、断网会给我们的生活带来多大困扰,那么如果云计算停止服务呢?导航、支付、健康码、甚至日常办公的各类软件无法使用,哪怕只是很短的时间,都会给我们的生活带来极大的不便。因此,保障云计算的安全稳定运行是非常重要的。 为了保障云计算的稳定,我们首要保障数据中心的稳定。数据中心作为云计算的重要实体基础设施,它为其内部的服务器、交换机等云计算设备提供着稳定的电力供应及合适的运行环境(温度、湿度等),对外提供7x24小时无间断高质量云服务。所以我们既要保障其中服务器、网络设备的稳定运行,又要保障为其提供配电、制冷能力的相应设备系统正常工作,还要保障整体数据中心的安防、 2 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 消防等方面安全,如此三层的安全防护才能足以为上层云业务提供基础设施级的稳定保障。 配电系统是数据中心的重要组成系统,一旦电力故障发生,末端的服务器和交换器会立刻失去一半的供电来源,严重的电力故障可能会导致末端失去全部供电来源,导致设备宕机,进而发生云服务中断的严重事故。因此为了保障云计算的稳定运行,我们就一定要保证配电系统的安全稳定。 要保证配电系统的安全稳定,光凭人力是不够的,因为人总会有疏忽遗漏的时候。我们需要借助人工智能的手段,引进算法来帮助我们进行判断和决策。为了实现这个目标,平台需要像电气专家一样非常熟悉数据中心配电系统的工作原理,所以我们需要实现电力仿真系统,让平台具备像电气专家一样辅助我们进行判断和决策的能力。 (二)挑战 数据中心遍布世界各地,并且不同数据中心的配电系统也各不相同。不论是硬件架构(物理设施连接),还是逻辑架构(电气综保设计),都存在很大的差异。为了实现电力仿真系统,我们需要设计抽象出一套通用的仿真方案,让我们的仿真系统能够模拟各种架构系统的运行状态,这样才能保证我们维护云计算稳定安全运行的最终目标。 3 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 (三)目标 在电力事件发生前自动识别配电系统中存在的风险,提示运维人员及时采取措施来规避或是解决风险。为了实现这一目标,就要实现对变更的全生命周期数字化管控。 在变更进行前,根据变更流程分析模拟出电力或暖通系统的变化情况,自动识别出变更方案中可能存在的问题,提前预见风险,降低高风险变更方案导致数据中心故障的概率。在变更进行中,在现场运维人员进行每一步操作前,将配电系统的实时情况与仿真结果进行对比,符合预期后才可进行后续操作,降低误操作导致数据中心故障的概率。在变更进行后,针对导致故障的变更方案进行仿真复现,根据模拟结果分析导致故障产生的原因,总结经验吸取教训,为数据中心稳定运行沉淀经验数据。 在电力事件发生后精准定位事件根因,辅助快速恢复,避免事件升级为故障。为了实现这一目标,就要实现对事件的异常溯源根因定位。 在事件发生后,将配电系统的状态与平台中存储的系统正常状态比对,找出异常点,并结合电力系统的运行原理(上下游、电气综保等),快速定位出导致此次电力事件的根因,将定位结果提供给运维人员,帮助快速恢复、及时止血,避免电力事件升级为电力故障。 4 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 三、数据中心电力仿真系统的关键技术 (一)电力架构及拓扑 1、电力架构及拓扑线上化难点 数据中心的供电系统需要将10kV的市电通过变压器、供电分配单元等设备将400V的电力资源分配给每个末端的PDU上,为IT设备提供稳定可靠的电力供应。为了保证IT设备获得7*24不间断电力供应,数据中心供电架构中使用了大量的冗余备用(2N/N+1/DR)、不间断电源系统(UPS、HVDC、巴拿马)、应急电源系统(高压柴发、低压柴发)等设计。根据数据中心等级、成本等多方面的因素,可以将冗余备用、不间断电源、应急电源等组合成多种不同的供电架构,这使得数据中心的供电架构繁杂多样。 图1 而仿真系统构建在供电架构之上,需要将供电架构拓扑线上化,通过供电架构拓扑为仿真系统提供结构化的设备间的连接关系。 5 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 为了实现繁杂多样供电架构拓扑的快速、高质量的线上化绘制,首先需解决绘制图样不统一、绘制速度慢、连接关系易绘错、绘制齐全度不易保障(漏绘)、视图呈现于逻辑关系分离维护等问题。需要一种拓扑的构建快速构建方式,降低了拓扑绘制成本、做到视图与关系的统一维护、实现IDC设施架构的可识别、可描述,同时利用自动化布局算法实现了各IDC拓扑视图呈现层面上的标准统一。 2、电力架构拓扑生成方案 电力架构拓扑宜采用多层级、模板式的拓扑生成方式,以基础图元(表示为单设备、绘制模板时图元为一类型设备),由于IDC设施大体架构的可枚举及细节多差异的特性,以图元组成描述设施架构的最小原子单元(内部设备数量、类型等可多维扩展)为原子模板,再以原子模板间拼插的方式组成具有业务意义的子系统模板 (如10kV配电、柴发并机组、制冷单元等),通过子系统模板的继续拼插组装,最终生成完整的拓扑模板,将设施设备绑定至拓扑模板上即可得到设施拓扑实体结构,服务于IDC运维各场景了,反过来也可依据完整的设施拓扑,选定其包含的子系统内容组成不同运维场景所需要针对性关注的子系统视图,实现一次绘制,永久复用。 通过多层级模板式生成的方式可做到最大程度上复用模板来进行拓扑构建,降低绘制工作量的同时也赋予了绘制完成后的拓扑以架构识别能力。 6 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 拓扑生成方案由三部分组成,分别是抽象供电架构、架构模版管理、和自动布局生成。 图2 抽象供电架构:按照数据中心架构的特点,我们将配电系统按10kV市电、柴发、变压器、IT负载、动力负载进行分层,各层下的架构分类如下所示。 10kV市电 表1 1 市电_2N(2路进线_2条母线_无母联) 2 市电_2N(2路进线_2条母线_有母联) 3 市电_2N(2路进线_3条母线_2市电有母联+1条柴发母线) 4 市电_N+1(2路进线_2条母线_无母联) 5 市电_N+1(2路进线_2条母线_有母联) 6 市电_N+1(2路进线_3条母线_无母联) 7 数据中心电力仿真系统及其应用白皮书ODCC-2023-06004 柴发 表2 1 高压柴发(1组_2路输出) 2 高压柴发(1组_2路输出_柴发母线接变压器) 3 高压柴发(1组_3路输出) 4 高压柴发(2组_每组两路独立输出_有母联) 5 高压柴发(2组_每组两路交叉输出_无母联) 6 高压柴发(2组_每组两路交叉输出_有母联) 变压器 表3 1 变压器_2N 2 变压器_2N-低压柴发N+1-备用油机 3 变压器_N+1-低压柴发-备用变压器 4 变压器_N+1-低压柴发-主用变压器 5 变压器_N+1 IT负载 表4 1 HVDC+市电 2 HVDC_2N 3 HVDC_DR 4 巴拿马_2N