数据中心智能化运维发展研究报告 (2023年) 中国信息通信研究院云计算与大数据研究所开放数据中心委员会 2023年3月 版权声明 本报告版权属于中国信息通信研究院、开放数据中心委 员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、开放数据中心委员会”。违反上述声明者,编者将追究其相关法律责任。 前言 新型数据中心是支撑5G、云计算、人工智能等新一代信息技术发展的算力载体,是推动经济社会数字转型、智能升级、融合创新的关键基础设施。随着以高技术、高算力、高能效、高安全为代表的“四高”成为产业发展新目标,智能化作为新型数据中心高技术的重要体现,已经成为新型数据中心的重要发展趋势。 为切实引导新型数据中心加快向“高技术”发展,本报告聚焦新型数据中心智能化运维的基础性研究。分阶段回顾了我国数据中心运维发展历程,对智能化运维的基本概念、发展历程等进行分析,深化产业认识,激发发展共识;首次提出智能化运维发展的三大目标和理念,体现产业界发展理念与体系的创新升级;总结分析智能化运维的发展核心——即设施、平台、体系、服务的发展态势,明晰智能化运维对于产业界的价值。报告意在为行业实现高技术、高质量发展提供有益参考,希望能对从业者有所启示。 数据中心智能化运维相关产业、技术正处于高速发展阶段,新技术生态瞬息万变,我们的认识有待深化迭代。报告存在不足之处,烦请业界不吝指正,共同进步。如有意见或建议请联系dceco@caict.ac.cn。 一、数据中心智能化运维概念与内涵1 (一)基本概念1 (二)发展历程2 (三)目标与理念4 二、数据中心智能化运维发展核心6 (一)设施自动化运行6 (二)平台智能化管理10 (三)体系精细化落地14 (四)服务价值化输出17 三、数据中心智能化运维发展实践20 (一)以自动化设施提升运行效率20 (二)以DCIM平台促进智能管理21 (三)以技术手段赋能运维体系变革23 (四)以巡检机器人释放运维人力25 四、数据中心智能化运维发展建议26 图1数据中心智能化运维框架结构1.02 图2数据中心运维管理发展历程3 图3自动化运行设施7 图4数据中心设施自动化运行能力分级之间的差异与关系8 图5DCIM的管理范畴与服务能力11 图6数据中心精细化运维成熟度模型17 表目录 表1数据中心智能化运营管理平台建设原则14 一、数据中心智能化运维概念与内涵 经济社会数字化转型进程加速,新一代信息技术不断升级,推动数据中心运维管理方式变革。为有效应对数据中心向绿色化、集约化、高密化、智能化建设发展演进过程中的新需求,数据中心运维需要由“人力密集型”向“技术密集型”演进,实现程度更深、水平更高的信息化变革,并在此基础上进一步向更高级别的数字化、网络化、智能化迈进。 (一)基本概念 数据中心智能化运维是集人工智能、大数据等新一代信息技术应用管理平台与数据中心自动化运行设施等深度融合的新型运维模式与综合解决方案(详见图1)。通过对运维设施、平台、体系与服务的全面建设,一方面充分利用DCIM(DataCenterInfrastructuremanagement,数据中心基础设施管理)、DOSM(DigitalOperationServiceManagement,数字化运维服务管理平台)等管理平台叠加自动化运行设施尽可能的实现系统自发现、自控制与自应急;另一方面搭建覆盖精细化运维工作全价值链的人、事、物、流程四维科学运维管理架构,重塑数据中心运维价值体系。 数据中心运行状态中,从数据要素的流转过程看,数据经过传感器的采集、DCIM的监控管理,到转化为业务可识别的数据,最后以数据驱动管理,产生预测性维护价值。将数据的标准化收集视为运维管理生命周期的起点,智能化运维由此可以看作是一项系统性工程,有着丰富的内涵与外延。需要通过数据中心设备、监控、管理平台与 运维工作的有机结合,推动产业精细化、绿色化、智能化发展。 来源:中国信息通信研究院 图1数据中心智能化运维框架结构1.0 (二)发展历程 我国数据中心运维的历史可以追溯到2000年左右,大体上可以划分为四个发展阶段(详见图2)。 来源:中国信息通信研究院 图2数据中心运维管理发展历程 (1)手工运维阶段 信息化发展初期,由于缺少运维工具和操作指南,较为依赖个人的知识、技术及经验。运维完全围绕人员展开,所有运维工作都由人工完成,当运维人员出现问题时,全面影响数据中心企业运行。 (2)流程化、标准化运维阶段 当运维业务量增长超过人力增长,众多企业纷纷建立运维流程,通过初步的制度化、标准化运作,规范了因为不同人员操作带来的效果差异。在这一阶段,根据标准化流程和分析方法,不同操作人员完成的巡检报告质量水平可实现基本一致,降低了人员的变化对数据中心企业运维的影响。 (3)平台化、自动化运维阶段 到了我国数据中心产业的大发展时期,云边端一体化算力布局体系初成,不同形态的数据中心架构各异,运维方式也各不相同,数据中心现场生产和远程集中化管理的运维需求溢出。数据中心可以利用DCIM等平台或工具,把可复用以及标准化程度较高的相关工作进行梳理,使用算法整合的方式来达到自动化的运维,并对执行的过程进行监管,优化运维管理。当前,我国数据中心总体处于平台化、自动化运维阶段,呈现平台化、自动化、可视化等典型特征。 (4)智能运维阶段 随着5G、人工智能、云计算、大数据等新一代信息技术研发与 应用风起云涌,赋能数据中心运维管理模式变迁。为有效应对数据中心产业不断提升人员效率、能源利用效率的发展需要,运维管理正在逐步迈入以设施、平台、体系、服务为核心要素的智能运维发展阶段。数据中心在全自动、互联、自运维的基础设施环境下,通过全方位的监控系统感知并准确定位故障,通知智能决策系统下发变更、维护等指令,实现运维从数据输入到预测性维护全过程的数字化,基于数据建模实现运维过程可视化,在“无人值守”的情况下安全高效地进行运维。随着数据中心业务日益繁杂,凭借海量数据的积累,人工智能、大数据等技术在数据中心运维领域还可以实现更多应用,智能化运维将从单点突破到全架构、全场景的优化落地,当前发展阶段距离实现真正的智能运维还有很长的路要走,未来将呈现出无人化、智能化、数字孪生等典型特征。 (三)目标与理念 (1)生产连续性 对于数据中心业务管理人员来说,用户的业务连续性取决于数据中心的生产连续性。特别是在疫情期间,用户企业尤其需要考虑数据中心在其业务连续性中发挥的关键作用。如今,业务连续性管理已经演变成了一门管理学科,在数据中心中得到了越来越多的应用。所谓业务连续性管理,即BusinessContinuityManagement,简称BCM。这个概念最早脱胎于传统的IT备份与容灾恢复计划,可以看作是组织进行一体化管理的过程。通过业务连续性,可以对潜在风险进行识别,提供一个指导性框架来建立组织机构的恢复能力和有效应急响应能 力。生产连续性则指数据中心基础设施层面进行智能化运行的过程,设施根据既定的设计标准和架构冗余度,结合业务需求和管理要求,在不超过设计运行目标的异常情况下,可以按照预定义模式持续运行。即当产生外界故障变化时,设施可以根据实际需要进行一定程度的资源调度和应急操作来保障生产连续性。 (2)运维即服务 OaaS(OperationasaService,运维即服务)是在借鉴了SaaS (SoftwareasaService,软件即服务)和研究了业界数据中心服务转型的基础上提出的新理念。近年来,运维在数据中心全生命周期中的关注度逐渐提升,其作为数据中心企业的软性核心竞争力之一,管理模式逐步从“以技术管理为中心”向“以服务为中心”转变。现如今,运维管理已经成为企业产品价值链上的重要环节,业界普遍认为实现服务的过程就是创造价值的过程,如果达成了“运维即服务”的发展目标,数据中心运维部门也会从传统的成本中心逐渐向价值中心转化。 (3)数据驱动管理 数据驱动管理指通过底层监控系统采集海量的数据,将数据进行组织形成信息,并对关键信息进行整合和提炼,实时、准确地为数据中心运营者提供管理决策依据,提高数据中心经营产出和效率。数据驱动管理模式是在数据的基础上经过训练和拟合形成自动化的决策模型,从而达成以数据和算法为驱动的预测性维护、智能化告警目标,全过程强调以数据“洞察力”驱动数据中心管理价值。 二、数据中心智能化运维发展核心 2021年7月,工业和信息化部《新型数据中心发展三年行动计划(2021-2023年)》明确提出“聚焦新型数据中心供配电、制冷、IT和网络设备、智能化系统等关键环节,锻强补弱”。政策引导数据中心运维管理向智能化发展,产业界关于智能运维等长期主义的呼声也越来越高。数据中心智能化运维是新一代信息技术与数据中心设施、平台、服务三层架构和体系深度融合的解决方案。深入分析与理解各部分的发展背景、推进逻辑,才能够更好地推动数据中心智能化运维发展。 (一)设施自动化运行 产业高速发展下,“解放人力”需求推动设施自动化运行。当下数据中心行业面临着大规模、高增长、急交付的发展挑战,运维侧面临成熟人才短缺、人员流动性较大、知识技能储备不足等诸多困难。为应对产业智能化运维下一发展阶段对于“无人值守”及无人化下极致安全的发展需要,电气、暖通、安防等自动化运行设施(详见图3)将结合软件能力,从快速地发现问题、及时地通报问题、准确地判断问题、高效地处置问题等方面,助力数据中心破除“人为主责”的局面,满足客户越来越高的SLA(serviceLevelagreement,服务等级协议)要求。 图3自动化运行设施 来源:中国信息通信研究院 数据中心设施自动化运行的发展与演进,与SAE(SocietyofAutomotiveEngineers,美国汽车工程师学会)对自动驾驶的成熟度定级相似。早有研究表明自动驾驶汽车为社会安全和效率带来一定积极影响。对于数据中心“智能驾驶”来说,基础设施如能在故障时发挥其发现、控制、应急的能力,取代人作为主责方完成相同的运行操作,这其中终态目标也在于安全和效率。数据中心安全、高效运行,是每一个运营者的核心目标,传统数据中心想实现这些,需要大量优质人才。随着新基建、“双碳”等国家战略发展,一方面,有限的人才资源制约着数据中心的快速健康发展,另一方面,过度依赖人也会增加数据中心运行的风险。从安全角度来看,据调查了解,数据中心故障宕机场景中,人为操作的事故占比超过60%。因数据中心面临的外部风险不确定性高,如突发的疫情、区域的限电、极端的天气、机电系统过于老化、能效控制等方面。想守住安全红线,靠人是远远不够的,需要建设自动化运行设施来助力数据中心实现更深层次的安全性。从 效率角度来看,和汽车的自动驾驶一样,数据中心设施的自动化运行可以降低对人员的依赖,提升效率。数据中心智能驾驶是一项系统性工程,需要通盘考虑,打通从建设到运营、硬件到软件各个环节,不仅要培养观念与习惯,还需要投入大量人力与时间成本。 类似于SAE将汽车自动驾驶级别的L0~L5级划分,清晰定义了人工驾驶(Noautomation)、系统辅助驾驶(Footoff)、部分自动驾驶(Handsoff)、有条件自动驾驶(Eyesoff)、高度自动驾驶(Mindoff)、完全自动驾驶(Chauffeured)五个等级。团体标准《数据中心基础设施智能化运行管理评估方法》将数据中心的电气、暖通、安防等设施在多种故障场景下,取代人作为主责方达成相同的操作目标的程度进行了定义。数据中心自动化运行发展从全部人工运行的初级阶段到全自动运行的高级阶段分为五个等级(详见图4)。未来数据中心或将达成第四级别,这一级别将实现自动预测性排障和分析、全自动应急处置及AI能效管理,在运行态几乎可以达到“无人化”。 有运行模式限制时完全执行运行操作任务和应急处置 没有运行模式限制,完全执行运行操作任务和应急处置 NO NO L5完全运行自动化 Yes