数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 1 [编号ODCC-2023-06005] 数据中心蓄电池智能诊断与运维技术白皮书 开放数据中心委员会2023-09发布 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 编写组 项目经理: 刘巍阿里云计算有限公司工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 晁怀颇阿里云计算有限公司 王振中国移动通信集团公司 周瑞旭腾讯科技(深圳)有限公司杨朴腾讯科技(深圳)有限公司樊围康杭州华塑科技股份有限公司赵峥字节跳动网络科技有限公司于超琪超聚变数字技术有限公司宋海鹏阿里云计算有限公司 潘兵阿里云计算有限公司 王玮光阿里云计算有限公司 王宏宇阿里云计算有限公司 李运建阿里云计算有限公司 吴彦哲阿里云计算有限公司 刘国良阿里云计算有限公司 关通阿里云计算有限公司 许可欣中国信息通信研究院 II 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 前言 目前电池运维,过度依赖于现场检查的精细度、频度,但仍然无法准确预测电池的性能。进行电池智能诊断与运维技术的研究,可有效减少人力、物力投入,预测电池故障、提升数据中心运行稳定性。本文旨为铅酸电池和锂离子电池系统智能诊断和运维提供技术参考。 本文共分为六个模块,分别阐述铅酸电池系统故障类型、铅酸电池监控与运维、铅酸电池智能诊断与运维、锂离子电池系统故障类型、锂离子电池管理与运维、锂离子电池系统智能诊断与运维。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 III 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 目录 版权声明I 编写组II 前言III 一、术语解释1 二、背景5 (一)数据中心铅酸蓄电池管理现状5 (二)数据中心智能化管理的研究进展6 (三)数据中心锂电应用的新挑战7 三、铅酸电池系统故障类型8 (一)电池失效8 (二)监控系统故障9 (三)连接故障9 四、铅酸电池监控与运维9 (一)铅酸监控系统组成9 (二)铅酸监控系统功能及技术要求10 (三)铅酸电池常规运维13 五、铅酸电池智能诊断与运维16 (一)铅酸电池故障识别16 (二)铅酸电池故障预测18 (三)铅酸电池预测算法19 (四)智能维护手段22 (五)铅酸电池智能运维展望24 IV 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 六、锂离子电池系统故障类型25 (一)电池故障25 (二)通信故障27 (三)电气故障28 (四)软件故障29 七、锂离子电池管理与运维30 (一)锂离子电池管理系统功能30 (二)备电锂电系统通信架构32 (三)锂离子电池常规运维33 八、锂离子电池系统智能诊断与运维35 (一)故障识别35 (二)故障预测38 (三)智能运维40 V 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 数据中心蓄电池智能诊断与运维技术白皮书 一、术语解释 1、数据中心DC(datacenter) 为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑物,也可以是一栋建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等。 2、阀控式密封铅酸蓄电池VRLA(valve-regulatedlead-acidbattery) 蓄电池正常使用时保持气密和液密状态。当内部气压超过预定值时,安全阀自动开启,释放气体。当内部气压降低后,安全阀自动闭合使其密封,防止外部空气进入蓄电池内部。蓄电池在使用寿命期间,正常使用情况下无需补加电解液。 3、浮充floatingcharge 浮充是蓄电池组的一种供(放)电工作方式,系统将蓄电池组与电源线路并联连接到负载电路上,它的电压大体上是恒定的,仅略高于蓄电池组的端电压,由电源线路所供的少量电流来补偿蓄电池组局部作用的损耗,以使其能经常保持在充电满足状态而不致过充电。 4、均充equalizingcharge 1 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 均衡充电,简称均充,是均衡电池特性的充电,是指在电池的使用过程中,由于电池的个体差异、温度差异等原因造成电池端电压不平衡,为了避免这种不平衡趋势的恶化,需要提高电池组的充电电压,对电池进行活化充电,以达到均衡电池组中各个电池特性,延长电池寿命的维护方法。 5、内阻innerresistance 电池的内阻是指电池在工作时,电流流过电池内部所受到的阻力,它包括欧姆内阻和极化内阻,极化内阻又包括电化学极化内阻和浓差极化内阻。 6、锂离子电池LIB(Lithium-IonBattery) 锂离子电池是一种二次电池(充电电池),它主要依靠锂离子在正极和负极之间移动来工作。在充放电过程中,Li+在两个电极之间往返嵌入和脱嵌:充电时,Li+从正极脱嵌,经过电解质嵌入负极,负极处于富锂状态;放电时则相反。 7、电池模块batterymodule 由电池单体采用串联、并联或串并联连接方式,且只有一对正负极输出端子的电池组合体,还宜包括外壳,管理与保护装置等部件。 8、电池管理系统batterymanagementsystem(BMS) 2 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 保证电池系统和电池单体安全、可靠工作的电路系统的总称。该系统采集电池系统总电压、电池单体电压、电量、充放电电流、温度等参数,对电池充电、放电过程和状态进行监控,并具有有效的保护和告警功能。由采集和监控、保护、均衡电路、电气和通信接口等装置组成。BMS应包括三级,第一级:电池模块监控单元,第二级:电池柜管理系统,第三级:多台电池柜的并机管理系统。 9、热失控thermalrunaway 电池单体放热连锁反应引起电池温度不可控上升的现象。10、析锂lithiumprecipitation 是锂离子电池的一种损耗状况。如在低温下重复充电,对电池造成损害,降低电池的安全性,特别是在受到外界的挤压,冲击等。 11、荷电状态SoC(state-of-charge) 当前电池单体、电池模块、电池系统中按照制造商规定的放电条件可以释放的容量占实际容量的百分比 即电池的剩余容量,数值上定义为电池当前剩余容量占电池容量的比值,通常以百分数表示。 12、健康状态SOH(state-of-health) 3 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 电池组在完全充电状态下,电池组实际容量与额定容量的比值,表征了电池组性能的衰减程度。 13、剩余寿命RUL(remainingusefullife) 剩余寿命是指部件或子系统从当前到发生潜在故障的预计持续正常工作时间。 14、动环监控系统supervisionsystem 通信电源及机房环境监控系统,是对分布在各机房的电源柜、UPS、空调、蓄电池等多种动力设备及门磁、红外、窗破、水浸、温湿度、烟感等机房环境的各种参数进行遥测、遥信、遥调和遥控,实时监测其运行参数,诊断和处理故障,记录和分析相关数据,并对设备进行集中监控和集中维护的计算机控制系统。 15、人机界面HMI(humanmachineinterface) 又称人机接口,是系统和用户之间进行交互和信息交换的媒介,它实现信息的内部形式与人类可以接受形式之间的转换。 4 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 二、背景 (一)数据中心铅酸蓄电池管理现状 为了保障业务的安全运营,数据中心从架构到设备构建了一系列完整的保障体系,其中UPS电池是整个体系中最后的供电保障环节。目前,数据中心所使用的电池以备电型的高功率铅酸蓄电池为主,在线的铅酸电池数量通常单个机楼达到万节级别,而全国各类数据中心在网电池数量超过千万只。铅酸电池如果出现故障往往会引发安全风险问题,甚至造成服务器宕机,因此电池的应用安全性是数据中心运维的重点工作之一。 对于铅酸电池,其充放电的原理为化学能与电能之间的可逆转化。目前的监控手段,主要是通过电池监控模块来测量电池在使用中的电压、电流和内阻,进而判断电池的容量和状态。但是现有手段很难准确判定电池的实际容量和状态,主要原因为: 1、电化学过程原理相对复杂,难以通过支持手段来测量,因此电池容量往往需要通过放电来测量; 2、铅酸电池日常工作状态下长期是处于浮充状态下,极少放电,难以判定电池的实际容量; 3、失效原因复杂,主要为电化学活性物质的减少包括(正极铅膏软化、负极硫酸盐化、电解液干涸)和导电路径的断路 (电正极板栅腐蚀、内部短路、汇流排腐蚀)。而要发现以上问题,则需要通过放电测量来实现。 5 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 因此,数据中心运维人员不得不耗费大量时间和费用来确认铅酸电池的状态,主要手段包括:对铅酸电池进行定期的放电检测 (通常一年一次);通过抽样解剖来分析是否电池存在故障风险。此外,为了避免应用的风险,通常每五年更换一次铅酸电池,尽管铅酸电池的设计寿命在10年以上。 (二)数据中心智能化管理的研究进展 为了改变现状,研究人员尝试通过智能算法通过铅酸电池运行的数据来提前发现电池的问题。大量的电池运行数据统计表明: 1、通过放电测试能够对电池的容量百分比进行比较准确的评估测算; 2、大部分电池的劣化模式都伴随着内阻升高的现象,监控内阻变化能够有效地对电池的劣化情况进行定性判断; 3、电池劣化初期及中期浮充电压不会有显著变化,直到电池劣化到十分严重时才能通过电压检测发现问题。 针对上述分析,腾讯研究人员通过构建电池健康管理服务来进行管理。电池健康管理服务的主要作用是:采用先进的数学模型和AI算法模型,对蓄电池浮充电压、放电曲线和内阻值等多项测量结果进行综合计算分析,对蓄电池的性能作出判断,并给出相应的运维建议。 6 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 阿里研究人员通过基于机器学习的方法对电池充放电曲线和健康电池的特征进行了分析,实现了电池故障的预测(内阻过高)、放电容量的估计和放电异常的诊断。该功能模块在IDC运营平台上线后,发现了某机房铅酸电池的安全性风险,成功地避免了服务器宕机的事故,有效提升运维的效率。 (三)数据中心锂电应用的新挑战 近年来,锂电在通信领域已经逐步抢占原属于铅酸电池的市场,呈现出“铅退锂进”的趋势。在数据中心领域,国内各大数据中心和运营商均已储备锂电技术,准备进入大规模应用阶段,而在国外特别是在东南亚地区选择锂电已经成为一种趋势。但是另一方面,锂电的失火引起的事故也偶有发生,例如在2022年韩国SKCC数据中心发生的,由UPS用三元锂离子电池引发的火灾。从近几年影响较大的储能用锂离子电池起火事故,事故的根因主要是锂电池的热失控,即为内部短路、析锂、高温、体积变化等连锁过程导致起火爆炸发生。对比其他储能应用场景,以安全为核心的数据中心更不能接受储能系统爆炸起火的风险。而目前防止手段,主要是选择磷酸铁锂电芯、采用目前主流的储能技术方案,也通过各种消防设计及消防设备来减少锂电失火带来的影响,但由于锂电相对着火迅速、灭火困难,最好的方法仍然是提前发现电池的热失控风险,提前将可能出现问题的电池进行更换。 7 数据中心蓄电池智能诊断与运维技术白皮书ODCC-2023-06005 锂电池热