数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 1 [编号ODCC-2023-0600C] 数据中心硬盘故障预测技术白皮书 开放数据中心委员会2023-09发布 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 编写组 项目经理: 原超中移(苏州)软件技术有限公司工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 潘飞中移(苏州)软件技术有限公司许可欣中国信息通信研究院 于超琪超聚变数字技术有限公司王钦东超聚变数字技术有限公司张宇奇西安三星电子研究所 李娟浪潮电子信息产业股份有限公司梁文俊浪潮电子信息产业股份有限公司 II 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 前言 随着互联网、云计算的发展,数据的存储需求与日倍增,大规模海量数据存储中心是必不可少的基础性设施。在当前的数据中心存储系统中,硬盘作为核心的设备,其寿命期是有限的,往往在使用2到3年后故障率明显升高,是影响服务器运行可靠性的重要因素。以硬盘故障预测技术为主的主动容错技术不仅可以减少数据丢失的风险,还能降低数据恢复的成本,如额外存储开销,网络带宽等,已成为当前数据中心智能运维方面主流的研究方向。 本白皮书从硬盘故障预测的完整技术栈出发,对能力指标、故障数据源的选择、预测算法和模型、案例等几个方面对硬盘故障预测技术能力和架构进行描述,提供对硬盘故障预测技术的全视角剖析。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 III 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 目录 版权声明I 编写组II 前言III 一、背景与发展1 (一)硬盘故障已成为大型数据中心硬件故障主要因素1 (二)智能化运维发展推动故障预测应用建设4 二、硬盘故障预测关键技术和指标6 (一)业界传统解决磁盘故障方式6 (二)评价指标7 (三)数据源及预处理10 1、S.M.A.R.T.参数10 2、其他数据13 3、数据的预处理20 (四)预测模型21 1、传统的阈值方法和统计学算法21 2、基于深度学习算法的预测模型23 三、主流存储故障运维软件案例26 (一)中移云秤-磁盘健康检测平台27 (二)超聚变FusionDirector-故障诊断功能29 (三)三星存储健康预测31 (四)浪潮融合智能存储管理平台34 四、总结和展望37 IV 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 参考文献38 附录缩略语和名词释义39 V 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 数据中心硬盘故障预测技术白皮书 一、背景与发展 (一)硬盘故障已成为大型数据中心硬件故障主要因素 随着数字中国、企业数字化转型的加速发展,越来越多的多元化数据和服务将部署在数据中心的存储系统中。用户对数据中心的存储可靠性要求也逐步增大,从最初的99.99%到99.999%,甚至到99.9999%,只有存储系统的可靠性得到保证,数据中心的可靠性和可用性才能得到保证。 在当前的数据中心存储系统中,机械硬盘(HardDiskDrive,HDD)和固态硬盘(SolidStateDisk,SSD)仍然是主流的外存储设备,其生命周期通常为3到5年,在2到3年后故障率明显升高,导致换盘量陡增。 图1 硬盘由多种机械和电子器件组成,是非常复杂且精密的设备,硬盘的故障呈现出不同的表现形式和严重程度。机械硬盘HDD由磁头/盘面接口、磁头堆栈组件、主轴电机/轴承和电子模块四部分单 1 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 元组成。这些单元的机制不同,其故障的触发因素也是各不相同。例如,磁头/盘面接口和主轴电机/轴承是机械部件,经常因为磨损而失效;控制板是电子电路,其经常遭受的是短路故障;固态硬盘SSD内部使用多通道技术来进行并行读写,控制器在SSD寿命方面起重要作用,它决定哪些位置的页在哪些时候进行拷贝或者擦除,并且提供逻辑地址和物理地址之间的映射。 在数据中心中,随着存储容量的不断增长,硬盘故障已成为常态而非例外的情况。国内外数据中心由于硬盘故障导致的服务中断屡见不鲜,造成的经济损失不计其数。 依据Backblaze在2023年第一季度公开报告可以看出,Backblaze共管理着236893块机械硬盘,排除无法启动的、S.M.A.R.T.信息不全的、数据异常的,累计已有17155块硬盘挂掉, 它们的平均使用时间只有2年6个月。机械盘的平均故障率为1.54%。 2 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 图22023年第一季度硬盘故障报告 根据国内某公有云的省节点资源池上23年第一季度硬件故障的统计,损坏率较高的服务器部件为硬盘损坏和内存损坏,两者占服务器整体硬件损坏的70%以上。当然,硬盘、内存本身数量在所有部件中占比较高,也是拉高损坏占比的原因之一。 3 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 图3国内某公有云2023年第一季度硬件故障占比报告 当前数据中心中的大规模存储系统普遍采用副本或纠删码等机制来提供高可靠性,在硬盘发生故障后的进行数据恢复,属于被动容错技术。这种方式采用牺牲较大存储空间和增加资源开销等保障存储系统的可用性。而以硬盘故障预测技术为主的主动容错技术越来越受到研究人员的关注。硬盘故障预测具有容错开销小、处理过程简单且对用户透明等显著优势,其核心思想在于实时监控运行中的硬盘,采集并记录硬盘的运行时状态数据,随后通过特定算法检测硬盘状态数据并预测硬盘是否即将发生故障。 成功的硬盘故障预测不仅可以减少数据丢失的风险,还能降低数据恢复的成本,如额外存储开销,网络带宽等。随着深度学习的发展,故障预测的研究更是一个热点。 (二)智能化运维发展推动故障预测应用建设 最早期的硬盘监控技术起源于1992年,IBM在AS/400计算机的IBM0662SCSI2代硬盘驱动器中使用了后来被命名为 4 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C PredictiveFailureAnalysis(故障预警分析技术)的监控技术,它是通过在固件中测量几个重要的硬盘安全参数和评估他们的情况,然后由监控软件得出两种结果:“硬盘安全”或“不久后会发生故障”。不久,当时的微机制造商康柏和硬盘制造商希捷、昆腾以及康纳共同提出了名为IntelliSafe的类似技术。通过该技术,硬盘可以测量自身的健康指标并将参数值传送给操作系统和用户的监控软件中,每个硬盘生产商有权决定哪些指标需要被监控以及设定它们的安全阈值。1995年,康柏公司将该技术方案提交到SmallFormFactor(SFF)委员会进行标准化,该方案得到IBM、希捷、昆腾、康纳和西部数据的支持,1996年6月进行了1.3版的修正,正式更名为S.M.A.R.T.(Self-MonitoringAnalysisAndReportingTechnology),全称就是“自我检测分析与报告技术”,成为一种自动监控硬盘驱动器完好状况和报告潜在问题的技术标准。 随着机器学习和人工智能的发展,智能化运维建设也在不断升级。国务院关于印发《“十四五”数字经济发展规划的通知》中指出,数据的爆发增长为智能化发展带来了新的机遇,提升基础设施网络化、智能化、服务化、协同化水平,加快优化智能化产品和服务运营,也将进一步突出智能化运维对于业务创新的重要意义。近几年现在绝大部分关于硬盘故障预测的研究都或多或少使用了人工智能的技术,包括:传统机器学习方法,如RandomForest(随机森林)等作为基础模型、神经网络,如LSTM等、特殊的神经网络模型,如GAN等。 5 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 人工智能技术需要大量的数据来训练,故障出现的条件和模式无法由单一因素决定,只有对故障的历史数据通过专家经验分析和标注,不断用模式识别和数据进行迭代训练,才能让训练出来的算法推理更加准确。因此,使用人工智能模型必然会有相应的数据集。目前来说,最常用的、且与硬盘故障强相关的特征属性仍旧S.M.A.R.T.。当然也不断有研究者和硬盘厂商如希捷等提出新的与硬盘故障相关的其他特征属性,如硬盘故障的时空局域性等等,在下一章中也会加以介绍以供参考。 二、硬盘故障预测关键技术和指标(一)业界传统解决磁盘故障方式 一般来说,数据中心的磁盘错误属于灰色故障,即使已经对生产系统造成了严重影响,依然隐蔽而不易被发现,目前业界共有三种方法尝试解决磁盘故障检测难题: 1、RAID。传统的提高数据可靠性的方法主要是冗余磁盘阵列RAID技术,通过采用数据冗余,容忍单个或多个磁盘的故障,并通过数据编码方式恢复错误数据。属于被动容错。 2、S.M.A.R.T.。S.M.A.R.T.数据描述了磁盘的多种属性,是磁盘管理的标准接口,S.M.A.R.T.是典型的主动容错技术。该技术监控磁盘运行过程中的多项参数,包括磁盘的寻道错、奇偶校验错等信息。基于S.M.A.R.T.的主动容错采用阈值方法,简单易行,但是预警准确率较低。 6 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 3、机器学习。智能运维(AIOps)是存储管理的发展趋势,预测性分析是AIOps的重要方向。基于大量数据,通过对数据的分析,从中发现蕴含的规律,实现“学习”的目的,从而提高系统本身的能力。在磁盘S.M.A.R.T.等数据的基础上,结合系统IO错误信息,采用机器学习方法,实现对磁盘故障的预测,可达到及时对故障磁盘进行处理,并增强存储系统可靠性的目的。AI使能磁盘故障检测,是存储预测性分析中的关键技术和创新突破点。 图4 本白皮书主要介绍基于机器学习的智能预测技术框架,包括以硬盘故障数据源、数据的特征处理工程、预测模型方法论等,在此之前,首先需要明确硬盘故障智能预测系统的评价指标。 (二)评价指标 在智能预测系统中,由于不存在一个适用于所有情况的评价指标,所以评估预测精度(或误差)就成为了较为不易的事情。一般来说只有通过试验,才能知道哪个性能评估指标适用于当前情况。对于数据中心硬盘故障的预测能力,基本上是基于数据驱动的方法进行的,所以评价指标基本上使用的是机器学习中模型评价的指标: 7 数据中心硬盘故障预测技术白皮书ODCC-2023-0600C 1、检出率FDR(FailureDetectionRates)。FDR又被称为故障检测率、召回率,表示所有的故障盘中被检测出来的比例; 2、误报率FAR(FalseAlarmRate)。FAR又被称为虚警率、误检率,表示所有的正常盘中被预测为故障盘的比例; 3、漏报率MAR(MissingAlarmRate)。MAR又被称为漏检率、漏警率,表示故障盘被预测为正常盘的比例。漏报率MAR和检出率FDR是具备关联性的,这两项指标通常只需考虑其中一项。 当然,结合硬盘故障预测的实际问题,对于具体的预测程序也有一些其他要求,如耗时要求、预警提前量(时间)指标等: 1、提前时间:故障预警和故障发生之间的时间间隔 2、执行时间:机器学习算法或者其他算法进行一次预测的时间。硬盘的预测其他指标如MR(MigrationRate)和MMR (MismigrationRate),分别代表了被保护的数据的比例和不必要的被保护的数据比例。这两个指标也可用来很好的衡量存储系统的可用性,尤其是