数据中心预测性维护白皮书ODCC-2023-06006 1 [编号ODCC-2023-06006] 数据中心 预测性维护白皮书 开放数据中心委员会2023-09发布 数据中心预测性维护白皮书ODCC-2023-06006 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 数据中心预测性维护白皮书ODCC-2023-06006 编写组 项目经理: 王磊阿里云计算有限公司工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 潘兵阿里云计算有限公司王宏宇阿里云计算有限公司李东昂阿里云计算有限公司钟光耀阿里云计算有限公司王雪萦阿里云计算有限公司陶辰阳阿里云计算有限公司孙屹林阿里云计算有限公司来嘉骏阿里云计算有限公司刘国良阿里云计算有限公司王加龙阿里云计算有限公司关通阿里云计算有限公司 徐雷阿里云计算有限公司颜雨潇阿里云计算有限公司晁怀颇阿里云计算有限公司许可欣中国信息通信研究院 II 数据中心预测性维护白皮书ODCC-2023-06006 前言 数据中心的安全、稳定、高效运营是云服务的基础,在此背景下,我们仔细分析了近几年内发生过的大大小小的事件及故障,发现了一个特点,那就是“千里之堤毁于蚁穴”。很多重大故障的发生并不是一蹴而就的,往往是毫厘之间的细小问题不断积累,同时又不能够得到及时的处理,多重问题同时发生,才会引起重大故障。并且,我们还发现,在重大故障案例发生前,往往提前伴随着一项或多项数据的异常波动或变化,但是这些变化又都是在监控范围之内很难被发现的。根据以上背景,如果能够在设备的运行数据发生异常时便检测出来,提前进行相应的维护处理,就有足够的时间避免故障的发生。 本项目主要通过类比中医诊脉的理论,通过梳理暖通系统核心设备的关键运行参数以及其关键测点,借助于智能化手段和传统的设备运行理论经验相结合,通过智能化管理平台对数据中心的设备进行精细化管理。探索数据中心的预测性维护该如何去践行。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 III 数据中心预测性维护白皮书ODCC-2023-06006 目录 版权声明I 编写组II 前言III 一、背景介绍1 (一)工业预测性维护发展1 (二)传统故障预测介绍2 (三)基于运行参数的预测性维护3 二、设备类型及测点3 (一)设备类型及性能指标4 (二)基线测点4 三、理论及经验基础7 (一)理论基础7 (二)四类参数异常8 四、智能化管理平台9 (一)场景库管理9 (二)模型库管理10 (三)闭环管理11 (四)测评体系12 五、智能监控算法13 (一)有监督方法13 (二)无监督方法15 (三)自适应模型15 IV 数据中心预测性维护白皮书ODCC-2023-06006 六、预测性维护标准16 (一)维护分类16 (二)维护周期定义17 (三)预测性维护标准18 七、展望19 (一)预测性维护19 (二)绿色设备管理20 (三)大数据驱动的维护体系20 V 数据中心预测性维护白皮书ODCC-2023-06006 数据中心预测性维护白皮书 一、背景介绍 伴随着工业化、信息化和经济全球化的发展,研究设备生命周期过程中的维护、维修、汰换等管理过程的运维工程学出现了新的突破,在新的技术和管理策略中,设备生命周期的管理也更加科学、智能和经济。其中以故障预测为主要技术手段的预测性维护便伴随着更加科学和智能的检测手段的发展在运维工程学领域占据了越来越重要的位置。 (一)工业预测性维护发展 事实上,早在20世纪80年代,在工业生产活动中便提出了以设备运行状态为基础的维修体制,相对于事后维修和以时间为周期的计划性维护,其主要特征便是在提前发现设备的状态劣化时对其进行提前维护处理,并减少不必要的计划性维护,实现经济性和稳定性的平衡。在高速发展的今天,传统工业领域已经在故障预测和预测性维护领域取得了长足发展,并且得到了广泛的应用。 但是,逐渐趋于智能化的今天,数据中心的智能化运维目前在此方面的研究仍然较少,因此,本项目以保障数据中心生产过程的稳定性为总目标,通过专家经验及预测性机器学习算法,本着提前发现,提前解决的原则,参考状态监测、故障诊断、维护决策等在 1 数据中心预测性维护白皮书ODCC-2023-06006 工业领域的先进经验,将预测性维护引入数据中心,为数据中心的智能化运维添砖加瓦。 (二)传统故障预测介绍 预测性维护是通过实时或定期地检测设备的运行状态,结合大数据、机器学习等新兴技术预测设备的健康状态,进而在设备停机前发现设备的异常,提前进行一系列的维护保养工作。其重点就是对设备的故障进行诊断和预测,目前主要应用的方法为:振动检测、噪声检测、红外热成像、超生波检测、摩擦学检测等等。 但是,对于预测性维护,想要完成最重要的故障预测环节,主要有以下四个方面的困难: 表1传统故障预测的难点及数据中心现状 难点 数据中心现状 海量数据 需要大量数据样本支撑; 数据中心的设备数量庞大,天然提供了一种学习的海量数据基础; 传感器 需要额外增加传感器; 缺失很多关键传感器,比如振动、红外、噪声等等,要想更加精准预测,需要大量的改造成本; 智能算法 更加完善的算法覆盖多样化场景; 数据中心主要为云计算服务,上层具有大量的算法工程师,提供了一定的智囊团; 系统集成 需要将各模块集成起来综合分析。 动环监控的集成化越来越高; 基于以上的难点和现状分析,目前需要快速在数据中心领域落地的方案就是解决传感器的问题,或者重新寻找一种新的评价方法。 2 数据中心预测性维护白皮书ODCC-2023-06006 (三)基于运行参数的预测性维护 本节主要介绍通过类比中医的诊脉和西医的B超、CT等医疗手段的区别,然后分析是如何从传统的故障预测联想到本白皮书所用的故障预测手段。 表2中西医诊断的方式对比 主要方式 优缺点 中医诊脉 通过感受患者的脉位、脉率、脉长短、脉势、流利度等来进行判断疾病。 无需额外设备;不够精准 西医 通过B超、心电图、彩超、X光等设备来进行疾病判断。 需要额外设备;更精准定位 同样的,对于机器设备的运行状态,传统的手段是利用设备的噪声、振动等信息来进行诊断和预测。通过类比中医诊脉的方式,也可以通过设备的运行参数变化来预测设备的健康状态。 二、设备类型及测点 对于数据中心的预测性维护而言,我们主要的目的有两个,一个是稳定性目标,一个是经济性目的。但是无论出于什么目的,首先我们要确定的是我们要对哪些设备做预测性维护,以及这些设备的性能指标是什么?要想对这些性能指标做预测,我们需要的测点是哪些?本章节主要确定了本次针对数据中心的预测性维护涉及的设备类型以及需要的基线测点。 3 数据中心预测性维护白皮书ODCC-2023-06006 (一)设备类型及性能指标 通过梳理水冷架构以及风冷架构的制冷全链路,我们主要梳理出了以下9类核心暖通设备,以及对各核心设备要监测的核心运行参数进行了梳理。 表3核心设备及其性能指标介绍 序号 设备名称 核心运行参数 运行参数介绍 1 冷却塔 液位、下塔温度 冷却塔的液位对于冷却水系统的稳定性至关重要,而下塔温度则是衡量其性能的最主要指标; 2 水泵 流量、压力 水泵的流量和压力则分别代表了其性能和稳定性; 3 蓄冷罐 液位、充放冷状态 对于蓄冷罐而言,液位和充放冷状态则均对稳定性至关重要; 4 水冷冷水机组 COP、出水温度 COP、出水温度则是衡量冷机性能的两大主要指标; 5 风冷冷水机组 COP、出水温度 COP、出水温度则是衡量冷机性能的两大主要指标; 6 板式换热器 换热性能 板换最大的风险就是结垢,其衡量指标则为换热性能; 7 精密空调 出风温度 出风温度直接关联到末端的环境; 8 AHU 出风温度、风机转速 出风温度直接关联到末端的环境;风机转速则是经济性指标; 9 冷/热通道温湿度 温湿度对应传感器 包间温湿度的准确性是机房的最后一道保障; (二)基线测点 对于每个性能参数的预测都需要很多工况参数来进行辅助,因此本节定义了要完成预测性维护,每种设备需要的测点。并且定义了这些测点的单位、精度要求、以及可能的合理工作区间。 表4 设备 测点类型 测点名称 单位 精度要求 工作区间 冷却塔 AI 冷却塔液位 cm 0.1 0-80 DI 补水阀门开启状态 / / 0/1 AI 风机频率反馈 Hz 1 0-50 4 数据中心预测性维护白皮书ODCC-2023-06006 DI 风机运行状态 / / 0/1 AI 冷却水流量 m3/h 0.1 0-2000 AI 冷却水进塔温度 ℃ 0.1 0-50 AI 冷却水下塔温度 ℃ 0.1 0-50 AI 室外湿球温度 ℃ 0.1 -50-50 水泵 AI 水泵供水流量 m3/h 0.1 0-2000 AI 运行频率反馈 Hz 0.1 0-50 DI 运行状态 / / 0/1 DI 冷机制冷模式 / / 0/1 DI 完全自然冷却模式 / / 0/1 DI 部分自然冷却模式 / / 0/1 AI 水泵出口压力 kPa 0.1 0-1000 AI 末端供水流量 m3/h 0.1 0-2000 AI 末端回水流量 m3/h 0.1 0-2000 AI 蓄冷罐正向流量 m3/h 0.1 0-2000 AI 楼层冷冻供回水压差 Bar 0.01 0-10 蓄冷罐 AI 蓄冷罐液位 m 0.1 / AI 蓄冷罐流量 m3/h 0.1 0-2000 AI 蓄冷罐各温度带温度 ℃ 0.1 0-50 水冷冷机 AI 冷机运行百分比 % 1 0-100 AI 冷凝器小温差 ℃ 0.1 0-10 AI 蒸发器小温差 ℃ 0.1 0-10 AI 实际导叶开度 % 0.1 0-100 AI 冷机运行频率 Hz 0.1 0-50 AI 冷机输出功率 kW 0.1 0-5000 DI 系统运行状态 / / 0/1 AI 冷却水流量 m3/h 0.1 0-2000 AI 一次泵流量 m3/h 0.1 0-2000 AI 冷机冷冻水出水温度 ℃ 0.1 0-50 AI 冷机冷冻水进水温度 ℃ 0.1 0-50 AI 冷机冷却水出水温度 ℃ 0.1 0-50 AI 冷机冷却水进水温度 ℃ 0.1 0-50 板式换热器 AI 冷却水流量 m3/h 0.1 0-2000 AI 一次泵流量 m3/h 0.1 0-2000 AI 冷机冷冻水出水温度 ℃ 0.1 0-50 AI 冷机冷冻水进水温度 ℃ 0.1 0-50 5 数据中心预测性维护白皮书ODCC-2023-06006 AI 冷机冷却水出水温度 ℃ 0.1 0-50 AI 冷机冷却水进水温度 ℃ 0.1 0-50 冷冻水型精密空调 AI 风机转速百分比反馈 % 0.01 0-100 AI 水阀开度百分比反馈 % 1 0-100 AI 回风温度 ℃ 0.1 0-50 AI 送风温度 ℃ 0.1 0-50 DI 系统运行状态 / / 0/1 AI 水路进水温度 ℃ 0.1 0-50 包间温湿度 AI 冷通道温度 ℃ 0.1 0-50 AI 冷通道湿度 %RH 0.1 0-100 AI 热通道温度 ℃ 0.1 0-50 AI 热通道湿度 %RH 0.1 0-100 AHU AI 送风机转速百分比反馈 % 1 0-100 AI 回风温度 ℃ 0.1 0-50 AI 送风温度 ℃ 0.1 0-50 AI 混风温度 ℃ 0.1 0-50 AI 水阀开度百分比反馈 % 1 0-100 AI 回风阀开度百分比反馈 % 1 0-100 AI 新风阀开度百分比