一体化监控白皮书ODCC-2023-06007 1 [编号ODCC-2023-06007] 一体化监控白皮书 开放数据中心委员会2023-09发布 一体化监控白皮书ODCC-2023-06007 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 一体化监控白皮书ODCC-2023-06007 编写组 项目经理: 来嘉骏阿里云计算有限公司工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 吴彦哲阿里云计算有限公司郭阿梅阿里云计算有限公司晁怀颇阿里云计算有限公司王宏宇阿里云计算有限公司王磊阿里云计算有限公司 王晓通浪潮电子信息产业股份有限公司段谊海浪潮电子信息产业股份有限公司李忠科OPPO广东移动通信有限公司 赵红光深圳市中电电力技术股份有限公司许可欣中国信息通信研究院 II 一体化监控白皮书ODCC-2023-06007 前言 构建一个极致智能、集约、绿色、高效的数据中心一直是“智慧DC”所追求的目标。当前,大数据、人工智能与云计算为代表的新兴数字技术蓬勃发展,其与数据中心行业的融合也自然成为探索数据中心全面智能化升级的全新领域。作为智慧DC的核心单元,监控系统是数据中心高效发展的核心抓手,也是实现双碳战略的主战场。作为构建万物互联的智能世界的落脚点,数据中心监控系统的发展很大程度上代表着未来智慧DC的发展,监控系统的智能化转型也将为数字化时代的到来带来新的机遇。 一年前,阿里云以“生生不息,智能进化,持续价值输出”为主题,发布了《阿里云智慧DC框架设计》,定义了未来智慧DC的概念,判定了智慧DC的发展趋势。随着近年来智慧DC这一概念逐渐由停留在纸面转向大规模实践,数据中心的数字化转型也逐渐进入深水区,智能技术将给园区规划、建设和运营带来新的模式和挑战。其中,监控系统作为未来智慧数据中心的发展缩影和示范载体,为实现数据中心的智能化和自我演进做出重要贡献。本《一体化监控系统白皮书》将结合过往一体化监控系统设计、建设与运营的成功经验,重新定义一体化监控,探讨一体化监控的迭代之路,助力一体化监控和智慧DC开启的篇章。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 III 一体化监控白皮书ODCC-2023-06007 目录 版权声明I 编写组II 前言III 一、术语1 二、背景与趋势2 (一)背景2 (二)一体化方案纲领4 三、一体化监控系统-顶层设计5 (一)顶层设计的必要性7 (二)顶层设计的方法7 (三)设计需要注意的问题9 (四)设计案例经验10 四、一体化监控系统-实施建设12 (一)实施建设的核心13 (二)建设的路径方法14 五、一体化监控系统-运维运营16 (一)运营理念与价值17 (二)运营体系建立方法19 (三)运营体系案例21 六、结论24 IV 一体化监控白皮书ODCC-2023-06007 一体化监控白皮书 一、术语 智慧DC:智慧数据中心,是以数字化技术为基础,通过对数据中心范畴内人、机、物、事的泛在互联、深度感知、智能决策、自动执行,让数据中心稳定、精益、安全的自主运行,形成可智能进化、可持续发展的智慧有机体; BAS:BuildingAutomation,楼宇自动化系统; EPMS:EnvironmentPowerManagementSystem综合智能监控管理系统也称动环系统; 一体化监控系统:包含业务流一体化和云边端一体化的数据中心监控系统; CMDB:ConfigurationManagementDatabase,配置管理数据库;DCOC:DataCenterOperationCenter,数据中心运营中心;SOC:SecurityOperationCenter,安全运营中心;FOC:FacilityOperationCenter,设施运营中心; ITOC:ITOperationCenter,IT运营中心; K8S:Kubernetes,管理云平台中多主机的容器化应用; DevOps迭代:DevelopmentandOperation,通过融合软件开发和运维团队,以提高软件交付速度和质量的管理方法。 1 一体化监控白皮书ODCC-2023-06007 二、背景与趋势(一)背景 随着对智慧数据中心从认知、探索逐步发展到大规模实践,在新政策、新技术和新需求的多重驱动下,数据中心的数字化转型也逐渐进入深水区,从功能体验到场景服务、单点智能到全业务流智慧、传统运营到数字化运营等,数据中心的外部环境和内部条件都发生了复杂而深刻的变化,给数据中心的一体化规划、建设、运营也带来了一系列新的要求和挑战。在“建设数字中国”的大背景下,IDC行业也迎来了前所未有的发展机遇。云与互联网+、人工智能与大数据等新技术蓬勃发展,将IDC引向了大体量高分布的发展态势。而在国家提出双碳战略背景下,行业与社会对IDC也提出了更高的精益运营要求。 同时运营一个数据中心通常需要多个系统:除了对机房电力系统和环境进行实时监测的动环系统、负责暖通系统监控的楼宇自动化系统、管理机房内网络的网络系统,还有门禁&视频监控系统、IT资产管理系统、消防系统等。这些系统分别负责监控和管理数据中心的不同设施,他们相互协作,保障着机房的正常有序运行。通常,每套系统都由不同的厂家开发,这些厂家往往在单一领域具有很深的经验沉淀和技术优势,业主可以在每个领域都择优而用。但它们之间始终存在着一定的独立性,实际运维过程中运维人员常常会面临一些问题:多个系统带来的学习成本上升、系统故障时需要联系 2 一体化监控白皮书ODCC-2023-06007 各自对应的厂商售后、系统之间无法做到信息互通……这些缺陷目前限制着智慧DC的进一步发展,也是IDC全面迈入智能化所必须攻克的难题。 上面提到的单个数据中心面临的问题,在管理多个数据中心时同样会出现。目前行业里的云数据中心,为了兼顾安全、效率、和规模,主要管理和运营模式为在云端进行全国或者全球的数据接入与风险和资产管控。这样的结构化管理下,运维可以快速管理大体量、广分布的数据中心。但随着精益管理的需求提升,这样的南向黑盒架构存在几个难处理的痛点: 1、统一规划难落地。整体数据中心监控系统体系庞大,业务线复杂横跨IT、设施、安全等多领域,整体功能规划困难。庞大的数据传输量对平台的处理能力和稳定性都提出了非常高的要求,而不同业务线上形态各异的数据都需要专门的处理流程,这将给监控系统的整体设计带来很大的挑战。 2、数据质量难治理。针对设施与IT等业务关键数据除了机房自身运维消费外,还需要上传至中心平台,接受中心平台统一的监控。目前,中心监控平台上的数据主要依赖机房运营/集成商的数据转发,数据链路冗长,数据质量参差不齐,数据中断与异常数据情况频发,且修复和治理工作受运营商和集成商制约,缺少抓手。 3 一体化监控白皮书ODCC-2023-06007 3、业务监控难管控。针对业务系统中的控制逻辑,由于在现有体系下控制逻辑的黑盒,在大多数场景下只知道其然不知其所以然。标准化不足,导致优化、精益生产成本高、难推广。 如何解决上述等关键问题,如何更好地管理一个甚至多个数据中心,成为每一个数据中心一体化监控方案必须要思考、回答的问题。 阿里云在全球运营15+10万台级基地、150+云数据中心,为全球用户提供近在咫尺且高效可靠的云服务。这种分散的部署模式同时也带来了管理上的难题。为了保障数据中心稳定、安全、高效运行,阿里云建立了云边端一体的数字化管理平台,通过将线下的物理基础设施和云端数字化数据中心联结起来形成业务流一体化,云边端一体化,分散的数据中心可以进行集中化的高效管理。 (二)一体化方案纲领 稳定高效的监控方案的落地需要经过设计、建设、运营三个关键环节,基于“设计、建设、运营”方法论的三个要素互为支持、有机循环,最终实现数据中心的智慧化运营和数字化业务创新。 其中一体化监控设计需要进行整体规划,并将用户需求、技术可行性和商业价值纳入考虑范围。这需要各部门在整体规划过程中协同合作,通过确定未来数据中心的发展方向,形成具体的设计方案。此外,需要将所有需求与现实环境相结合,制定出合理的方案,并将其具体化。一体化监控的建设是一个多元集成的系统工程,需 4 一体化监控白皮书ODCC-2023-06007 要以设计为蓝本“正确地做事”,在实现上为可运营性进行思考和设计。运营方要参与建设过程,对建设方案提出运营需求,构建运营能力;一体化监控的运营是价值实现的主要途径,需要通过数字化运营降本增效,推动业务创新。同时,需要在运营的过程中“以用促建”,在运营中识别痛点和机会,为数据中心的持续迭代和业务持续优化提供输入。 阿里云基础设施一直致力于智能化平台建设,持续推动数据中心智能运维技术的创新与落地。在下面的三个章节中,将基于自有数据中心的实践和行业交付项目的经验,在设计、建设、运营等方面展开详细论述。 三、一体化监控系统-顶层设计 “千星之行,始于司南”顶层设计是工程学的一个术语,指针对某一具体的设计对象,运用系统论的方法,从全局的角度,对某项任务或者某个项目的各方面、各层次、各要素统筹规划,以集中有效资源,高效快捷地实现目标,是一种将复杂对象简单化、具体化、程式化,在最高层次上寻求问题解决之道的设计方法。 把“顶层设计”用在一体化监控设计中,是为了强调该设计方法统筹全局,具有系统性和战略视角。这种设计方法不仅是对具体项目或任务的设计,更是对整个数据中心业务的整体性规划和设计,通过对各种因素进行综合考虑,从全局出发,找到最优的解决方案。这种设计方法也符合系统论的思想,强调要从整体出发,把各个部 5 一体化监控白皮书ODCC-2023-06007 分联系起来,同时要考虑各个部分之间的相互影响和制约。因此,在“一体化监控的顶层设计”中,运用“顶层设计”的方法和理念,可以更好地实现数据中心业务的整体优化和智慧化发展。 “一体化监控的顶层设计”具有以下三个特征: 1、顶层决定性:顶层设计是从数据中心业务发展和核心用户需求出发所进行的系统性、全局性的设计。顶层设计要根据数据中心业务的需求和现实情况,进行创新和创造,以最大程度地满足业务发展和用户需求。 2、数字技术赋能性:一体化监控的顶层设计利用数字技术的能力来支持数据中心的业务发展。数字技术可以为一体化监控提供各种工具和手段,例如大数据分析、物联网、人工智能等。这些技术可以帮助一体化监控实现智慧化服务和数字化运营,提高数据中心的业务能力和竞争力。 3、实际可操作性:顶层设计是需要具备可行性的,必须要考虑到实际情况。一体化监控的顶层设计要从业务需求和现实情况出发,提出实际可行的方案和措施,并通过实践将其变为现实。 在实施过程中,需要注意不断改进和优化,确保一体化监控的顶层设计真正地能够落地实施。 顶层设计是系统性、全局性的设计,是从数据中心业务发展和核心用户需求出发,进行的创新和创造,以最大程度地满足业务发展和用户需求。在智慧DC建设和运营中,一体化监控顶层设计是智 6 一体化监控白皮书ODCC-2023-06007 慧化发展的关键所在。下面我们来具体了解一下一体化监控顶层设计的价值和必要性、明确一体化监控顶层设计的科学规划方法和理清一体化监控顶层设计的误区。 (一)顶层设计的必要性 数据中心监控与业务的一体化建设需要顶层设计来梳理和明确问题,这是从不确定性到确定性的过程。在一体化监控顶层设计中,核心问题是“在哪里、怎么去和去哪里”。“在哪里”指的是目前监控系统的状态以及服务的对象,需要进行针对当前业务的全面场景统计;“去哪里”指的是一体化