OCTCBB01—2024 数据中心物理基础设施管理要求 白皮书 (2024年4月) 开放计算标准工作委员会发布 OCTCBB01—2024 版权保护文件 版权所有归属于该标准的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。 I T/CESABB01—2024 目次 前言Ⅲ 1背景、目的及意义1 2发展趋势2 3术语4 4平台架构5 5平台管理要求6 5.1资产管理6 5.2监控管理11 5.3配置管理24 5.4能耗管理29 5.5拓扑管理30 5.6统计管理31 5.7用户管理32 5.8安全防范管理33 6平台兼容性34 6.1硬件兼容34 6.2软件兼容34 7平台可靠性35 7.1系统稳定性35 7.2高可用性35 7.3安全性36 7.4可伸缩性36 7.5容灾备份36 7.6监控和故障排除37 8平台高性能37 8.1并发量37 8.2响应时间37 8.3吞吐量38 8.4性能计数器38 9总结38 参考文献40 II 前言 本文件由国网智能电网研究院有限公司提出。本文件由开放计算标准工作委员会归口。 本文件起草单位:国网智能电网研究院有限公司、浪潮电子信息产业股份有限公司、中国电子技术标准化研究院、中国质量认证中心、南京大学、北京信息科技大学。 本文件主要起草人:刘卫卫、赵保华、赵帅、陈海、刘晓蕾、郭锋、王晓通、马鸿超、邸贺亮、刘畅、李锋、田琳、张鑫、贾伟、王勇旭、李松、张鹏、张玉峰、杨辰、马成欣、吴春鹏、王岳、郑敏、余智、陈凯、许封元、侯守璐。 III 数据中心物理基础设施管理要求 1背景、目的及意义 在数字化转型的关键时期,数据中心作为一种新型基础设施,扮演着重要的角色。数据中心是用于集中存储、管理和处理大量数据的设施,它提供高性能的计算和存储资源,满足数字化转型所需的巨大数据处理需求。数据中心物理基础设施管理是指对数据中心的计算设备、网络设备、存储设备、动力环境、安全设施等基础设施进行全方位的管理,包括资产、监控、配置、能耗、拓扑、安全、用户等。随着数据存储规模和计算量的不断增长,数据中心的规模也在不断扩大,对其物理基础设施的管理变得愈发困难。 在数据中心快速发展的背景下,物理基础设施管理软件市场迅速扩大,各大厂商纷纷推出数据中心物理基础设施管理软件。然而,随着数据中心基础设施的多样性和复杂性增加,现有的管理软件面临着一系列挑战。由于数据中心基础设施的多样化,现有的管理软件缺乏标准化、一体化和智能化。这使得不同软件之间难以协同工作,管理数据中心的效率受到了影响。此外,现有的基础设施管理技术在覆盖其他行业客户应用方面存在不足,导致数据中心管理软件无法满足不同行业的特殊需求,限制了其应用范围。 这些问题会给数据中心的稳定性、可维护性和可扩展性带来挑战。制订数据中心物理基础设施管理技术要求是解决这一问题的重要举措。制订白皮书是为了解决数据中心物理基础设施管理标准不一致、缺乏一体化和智能化的问题。通过白皮书的制订,可以推动设备管理的一体化和规范化,促进管理平台在架构、功能和智能等方面的标准化,提高各数据中心之间的互操作性和兼容性。这将有助于提高数据中心的管理效率、可靠性和安全性,降低运营成本,推动整个数据中心管理的发展,进而促进数据中心物理基础设施管理产业的健康发展。 此外,由于数据中心物理基础设施管理软件的复杂性,有必要出台相关标准进行统一规范,所以后续将基于此白皮书内容出台相关标准,以提升行业标准化水平、促进数据中心基础设施管理软件行业的发展。 1 2发展趋势 在当今数字化时代,数据中心的角色愈发关键,它们是企业信息管理和服务交付的核心。面对数据中心规模日益庞大、需求日益多样化的挑战,标准化管理、智能化管理以及一体化、平台化等成为了数据中心演进的关键方向。 1、标准化管理是数据中心迈向高效、安全与绿色未来的基石 标准化管理是数据中心迈向高效、安全和绿色未来的基石。随着数据中心规模的增大,标准化管理成为数据中心管理的必然趋势。标准化管理可以帮助实现自动化和集中化管理,提高效率、降低成本,并增强安全性。通过制订统一的标准和最佳实践,数据中心可以更好地配置、监控和维护各个组件,实现自动化流程和集中化管理,从而提高整体运维效率和资源利用率。 首先,标准化管理可以促进自动化和集中管理。当数据中心的硬件和软件都遵循统一的标准时,管理员可以更容易地配置、监控和维护数据中心的各个组件。这使得管理员可以更快速地完成任务,提高工作效率,同时降低错误率。通过自动化常规任务,数据中心可以更快地适应变化,提高应变能力。其次,标准化管理可以提高效率。由于数据中心的硬件和软件都遵循统一的标准,所以可以更容易地实现自动化和流程优化。这不仅可以减少人工干预产生的错误,同时也可以提高工作效率,使数据中心更加可靠和高效。此外,标准化管理还可以降低成本。当使用相同或相似的硬件和软件配置时,数据中心可以更大规模地采购,从而获得更好的定价和折扣。这使得采购成本得到更好的控制,同时也降低了维护和运营成本。最后,标准化管理可以增强安全性。标准化有助于确保数据中心的组件都符合安全标准和最佳实践。这使得数据中心更加安全可靠,降低安全漏洞的风险,并使数据中心更容易实施一致的安全策略。 标准化在数据中心管理中扮演着关键角色,它不仅有助于提高效率和资源利用,还为数据中心提供了更好的安全性。对于大规模数据中心的统一管理,标准化是实现协调一致性操作的基础,从而使得整个数据中心更加高效和可靠,并且保障数据中心的绿色低碳。 2、智能化管理是保持竞争优势的关键 智能化管理是保持竞争优势的关键,在数据中心运维中,自动化和智能化是数字化转型升级的必由之路。自动化管理可以减少人为错误、提高效率,并确保任务按照规定的标准和时间进行。通过人工智能、机器学习等先进技术赋能数据中心系统和运维过程,使其更加智能,以实现自动化学习、优化和适应变化,提高运维管理效率。 2 传统的手动管理和运维方式已经很难满足快速、高效、可靠的要求。数字化的发展是推动数据中心实现基础设施自动化和智能化管理的基础,因为只有通过数字化,才能够获取大量数据,并为自动化和智能化提供所需的信息和基础。同时,自动化和智能化管理也是数字化的必然结果,因为数字化使得数据中心能够更好地应用先进的技术和算法,从而实现自动化和智能化管理的目标。 智能化管理是利用人工智能(AI)和其他先进技术赋予数据中心系统和运维过程更高级的智能能力。通过使用这些技术,数据中心可以更好地满足不断变化的需求。全面的智能化管理是数据中心基础设施领域最终的技术演进方向,因为它具有很多优势。首先,智能化管理可以显著提高运维管理效率。在海量运维数据背景下,AIOps可以自动分析和识别基础设施产生的异常、故障等问题,使运维管理更加高效、准确和及时。其次,智能化管理可以实现前瞻性的故障预测。利用AI的预测能力,可以提前预测服务器等基础设施的异常和故障,从而避免故障对业务造成影响,进一步提高数据中心的可靠性。此外,智能化管理可以实现稳定的可靠保障。当数据中心基础设施出现异常或故障时,AIOps可以通过自动化分析、诊断和修复,实现实时、快速的问题解决,确保数据中心的稳定性和可靠性。最后,智能化管理可以精细地控制成本。通过AIOps,可以极大降低人力成本和时间成本,提高IT系统的可靠性和稳定性,同时也降低了故障和异常造成的损失。因此,智能化管理可以为数据中心带来更高的效率、可靠性和经济效益。 3、一体化、平台化是数据中心持续发展的关键路径 一体化、平台化与数据中心基础设施融合是数据中心管理的趋势。现代的数据中心物理基础设施管理趋向于集成各种管理工具,并倾向于使用综合性的平台来进行管理。一体化、平台化可以实现数据的集成和关联分析,提供统一的管理界面,节省时间和精力,提高管理效率,同时可以实现更全面的资源管理和协同运维,提高整体数据中心的效能和可靠性。 现代数据中心物理基础设施管理正朝着集成各种管理工具并使用综合平台进行管理的方向发展。这种一体化和平台化的管理模式能够实现很多优势。首先,一体化、平台化可以收集来自各种设备和系统的数据,并将其整合在一个中央存储库中,实现数据的集成和关联分析,这使得管理员能够更全面地了解整个基础设施的状态和表现,从而更准确地评估和管理风险。其次,通过集成不同的管理工具,管理员可以在一个统一的管理界面中查看和操作所有相关数据和功能,这可以节省时间和精力,提高管理效率,并减少在不同工具之间切换所需的工作量。此外,一体化、平台化还可以提供全局报告和分析功能,帮助管理员根据自身需求生成全局的报告和可视化数据,这使得管理员能够全面了解基础设施的性能和瓶颈,并采取适当的措施来优化和改进。 3 3术语 (1)独立磁盘冗余阵列(RedundantArrayofIndependentDisks,RAID):RAID技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘,从而提高了硬盘的读写性能和数据安全性。 (2)sFlow(SampledFlow):是一种基于报文采样的网络流量监控技术,主要用于网络流量的统计分析。 (3)网桥协议数据单元(BridgeProtocolDataUnit,BPDU):是一种桥嵌套协议,在IEEE802.1d 规范里定义,可以用来消除桥回路。 (4)固态硬盘(SolidStateDrives,SSD):是由固态电子存储芯片阵列制成的硬盘,由控制单元和存储单元组成,数据读写性能相对于传统硬盘大大提升。 (5)逻辑卷(LogicalVolume,LV):是由逻辑磁盘形成的虚拟盘,也可称为磁盘分区。 (6)受管磁盘(MDisk):是对主机系统不可见的物理存储器的逻辑单元。它可以是来自内部存储器阵列(RAID)的逻辑单元,也可以是来自外部存储系统卷的逻辑单元。 (7)可纠正错误(CorrectableError,CE):硬件会利用一部分资源对该错误进行修复,而当内存CE累计过多,无法进行自我修复时,则会产生UCE,造成系统宕机重启。 (8)不可纠正错误(UncorrectableError,UCE):当硬件侦测到一个错误,它会通过两种方式报告给CPU的。其中一种方式是中断,这种情况如果是UCE可能会导致服务器立马宕机。 (9)硬盘自我检测分析与报告技术(Self-MonitoringAnalysisAndReportingTechnology,S.M.A.R.T):对硬盘的温度、内部电路、盘片表面介质材料等进行监测,力求及时分析出硬盘可能发出的问题,并发出警告,从而保护数据不受损失。 (10)根因定位(RootCauseDetermination):是指通过分析服务器异常的具体表现和相关信息,找出可能导致服务器故障的具体原因。 (11)碳排放系数(CarbonEmissionFactor):是指每一种能源燃烧或使用过程中单位能源所产生的碳排放数量。 (12)电能使用效率(PowerUsageEffectiveness,PUE):评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载消耗的能源的比值。PUE=数据中心总能耗/IT设备能耗,其中数据中心总能耗包括IT设备能耗和制冷、配电等系统的能耗,其值大于1,越接近1表明非IT设备耗能越少,即能效水平越好。 4 (13)高可用性(HighAvailable,HA):是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。 4平台架构 数据中心物理基础设施管理平台旨在满足数据中心对于物理基础设施数字化的要求。该平台是在异构设备数据采集、汇总及分析基础上构建的综合管理平台。以高效的数据采集与存储作为支柱,平台整合了资产管理、监控管理、配置管理、能耗管理、拓扑管理、安全防护、统计管理以及用户管理等众