2024年数据中心能源十大趋势 白皮书 2024年01月HUAWEI 2024年数据中心能源十大趋势白皮书 目录 01前言 趋势一:产品安全 02高可靠产品+专业化服务是保障数据中心安全可靠运行的关键 趋势二:架构安全 04分布式制冷架构将成为温控安全的更 优选择 趋势三:主动安全 06预测性维护将成为数据中心基础设施 的标配 趋势四:网络安全 08全生命周期的网络安全防护体系将成为数据中心基础设施的保护盾 趋势五:部署极简 10预制化、模块化将成为高质量快速交付的最佳选择 2024年数据中心能原十大将势白度书 趋势六:运维极简 12专业化管理平台让数据中心运维更安全、更高效 趋势七:未来演进 14风液融合将成为业务需求不确定场景下的优选架构 趋势八:制冷高效 16间接蒸发冷依然是现在和未来最优的 制冷方案 趋势九:系统高效 18能效PUE挖潜要从关注部件高效调整 为系统工程最优解 趋势十:调优高效 20AI调优将成为存量DC能效智能优化 的最佳选择 前言 前言 在重塑整个世界,为社会带来便捷的同时,也为数据中心的发展带来了新的机遇和挑战。智能算力的爆发式增长,对数据中心提出了大算力、高性能的新需求,并为数据中心的发展提供了强劲的动力和更加广阔的空间。 随着数字化技术的进一步发展,数据中心的规模、架构、技术、管理等方面都取得了显著的进步和突破,其重要性等级也不断提升。而近年来数据中心的安全事故时有发生,由此造成的社会影响和经济损失,呈逐年升高的趋势,安全可靠作为数据中心的最基本要素,成为行业共同关注的重要课题。 除此之外,智能算力时代的到来,更为数据中心产业带来前所未有的变化,在可靠性、可用性和经济性的基础上,未来数据中心还需要支持灵活演进,以匹配不同时期的业务需求。同时,人工智能技术在数据中心基础设施领域的应用,也为数据中心的运维创新带来了更多可能。 华为数字能源与产业领袖、技术专家和行业客户基于深入研讨,并结合自身的深刻洞察和长期实践,发布《数据中心能源十大趋势白皮书》,希望为促进数据中心行业健康发展提供参考,贡献智慧。 01 高可靠产品+专业化服务是保障 数据中心安全可靠运行的关键 随着数字化的深入,数字经济已经成为了社会发展的主引擎,作为数字经济的底座,数据中心的稳定运行,直接关乎者社会和经济的发展,高质量可靠运行成为数据中心的最核心要求。作为数据中心基础设施的关键组成,采用高质量的产品和专业化的服务保障体系,保障数据中心安全可靠运行的关键 产品安全 ?安全可靠始终是数据中心最本质需求 数据中心基础设施作为数字底座,是海量数据承载的物理基础,是信息集中处理、计算、存储、传输、交换、管理的核心资源基地,也是当今社会经济正常运转的关键保障,因此安全性是数据中心的生命。而数据中心中基础设施的可靠性、安全性一直是较薄弱的环节,完善的端到端保障机制,是数据中心生命周期内安全稳定运行最牢靠的基座。 ?高可靠产品+专业化服务是保障数据中心安全可靠运行的关键 每一个数据中心的组成背后都有着数以干万计不同部件,在如此众多的零部件组成下,为了确保数据中心具备高可靠性高安全性,需要从产品本源安全可靠出发到专业化团队设计运维,构建端到端全链保障机制,才能确保数据中心安全可靠。 高可靠产品包含产品设计可靠和产品生产可靠两部分: 在设计阶段,电芯的选型、模组的组合、PaCk的连接以及电池系统之间的并机,都关系到电池运行的安全性和失效率。如电芯的选型,高可靠的磷酸铁锂电芯可以大幅降低电池热失控后的起火风险,以提升数据中心备电系统的安全等级。 产品生产可靠:设计阶段决定了产品的“基因”,而很多产品的部件数量多,设计精密,生产过程对产品的优劣起到关键作用。在生产 中,尽可能减少不确定性影响(如人工介入),构建鉴权的质量控制体系和标准化生产流程,可以确保产品的一致性和可靠性。如在制 造阶段,引入自动化标准产线,大大降低产品生产一致性差等问题,同时配合数字化AI技术与显性化技术,自动监测设备的特征参数, 从而进一步识别生产过程中潜在的风险因素,如焊接不良、螺栓松动、电芯析锂、绝缘破损、漏液、虚焊漏焊等,从生产制造源头保障 产品的安全可靠。 专业化服务包含专业化部署和专业化运维两部分: 专业化部奢:数据中心建设属于专业领域,包括强电安装、弱电调试、制冷系统部奢和弱电监控等界面,工作的专业性和规范性对于安装质量至关重要。如配电设备安装中的力矩、电阻测量,电池安装中的规范影响,制冷系统中管路焊接和保压、冷媒冲注等工作,需要细致的工艺和水平保障质量。同时对于规范性,需要遵从相应技术标准,避免因部署不规范导致的安全隐志。 的运维流程、专业的运维技能和事故应急预案,可以在设备运行时发现异常,及时处理,在紧急情况下迅速响应,降低影响。做到数据中 心长治久安。 只有严格遵守端到端保障机制的产品,才能使数以千方零部件产品组成的数据中心安全、稳定、可靠、持久的运行。 03 分布式制冷架构将成为温控安全 2的更优选择 UptimmeJnsidtute2023年调查数据显示,造成数据中心事故或中断的原因构成中,制 古比达19P是仅次于供配电的第二大故障来源。在数据中心可靠性的关键要素中,除了制冷婚本身的失效率,整个数据中心温控架构的设计,是决定数据中心制冷可靠性的关 架构安全 ?集中式制冷存在单点故障风险 当前,多数大型数据中心采用集中式冷冻站供冷系统,该系统由冷水机组、冷却塔、蓄冷罐、温控末端、冷却水泵、板式换热器和管理 大的排战。 近年来,香港、新加坡、广州等地的多家头部数据中心厂商因集中式冷冻水系统故障而引发长达10小时以上的岩机,造成一级安全事故,受到工信部的约谈,同时导致多家网站和APP无法正常运行,造成巨大的经济损失。例如,2022年12月,香港大型数据中心的冷却管 路漏水进气,导致冷水机组全面停止运行,机房温度升高引发次生消防事故,服务器停机超过15小时,多家网站和APP无法正常运行, 多个知名品牌的业务受到严重影响,造成的经济损失无法估计。另一个例子是,位于中国华南地区的某数据中心,其冷却水系统因母管缺水进气而形成气阻,导致整个冷却系统失效,全楼的制冷系统中断。2023年,新加坡某大型数据中心服务商,由于冷水机组软件升级优化不当,导致制冷系统无法启动,无法为服务器提供冷却,诸多服务器因超温而岩机,服务中断,其数据中心中运行的某头部银行的在线业务长时间无法使用。 ?分布式制冷架构各子系统相对独立,可靠性更高 分布式制冷系统架构灵活,子系统相互独立互不影响,单台设备的故障不会影响到其他设备,在保障温控安全方面具备更大优势。 分布式制冷架构一股针对单个Daahal配置冷源,并按业务重要程度设置架构亢余,若单台设备故障仅对单个子系统产生影响,不影响整体机房业务正常运行,对重要业务的保障能力更强,且不会对其它部分机房业务造成任何影响,从架构设计上大幅提升了数据中心的可靠性,是智算时代更优的选择。 同时,分布式制冷系统更容易实现工厂预制,可减少现场工程量,减小施工质量问题带来的隐患。此外,分布式制冷系统的一大特点是运 维商单,以间接蒸发冷却为例:相对于冷冻水机组,一的间接蒸发冷却空调机组结构非常简单,仅由一台主设备和数个附属设备组成, 系统连接点少,管路相比冷冻水系统也仅需1/10左右,应急处理时出错的概率低,运维难度也大大降低,可以最大程度保障数据中心的供冷有效性和供冷稳定性。 随着数据中心规模越来越大,集中式制冷的弊端也越来越大,分布式制冷系统凭借架构灵活,可靠性高的优势将越来越广泛地应用到新建数据中心,逐渐取代集中式制冷方案成为主流。广泛的市场需求也推动了行业技术的不断突破和进步,多个主流厂商均开始大力推广分布式制冷架构,其中最具代表性的就是间接蒸发冷却方案,当前间接蒸发冷却方案支撑的机架规模已超过30方,并在众多气候条件迫异的地区都得到了落地验证。相信随着以间接蒸发冷却和分布式制冷架构为代表的新型节能技术的进一步普及和推广,数据中心产业将迎来一个低碳节能和安全可靠兼顾发展的新时代。 05 预测性维护将成为数据中心 基础设施的标配 随着数据中心功率密度的提升,故障应急处理的时间也大幅缩短,对于数据中心维护提 出了更高的挑战。得益于人工智能技术技术的发展,使用A/技术进行风险预测和管理数 据中心基础设施成为可能。A算法可以从历史和实时数据中学习,预测和识别异常模式,从而使数据中心的安全管理从被动的救火模式转变为主动的防火模式,从运维手段上提升数据中心的可靠性。 主动安全 ?数据中心功率密度的升高,使故障应急处理时间大幅缩短 随着智能计算技术的发展,数据中心的单机柜功率将从6-8干瓦增至30-40干瓦,极大地提升了数据处理的能力。这一飞跃不仅优化了运算效率,还推动了数据中心供电/制冷技术的革新,因为高密化需要更大的供电功率,更高能量密度的备电电池,以及更高效的散热方式。 但这也带来了更大故障域的风险,比如锂电池以其高能量密度和长寿命在数据中心能量存储领域占据了一席之地,但它们也存在过热风险,特别是在过充、内部缺陷、使用不当等异常场景下,公开研究资料显示,单体磷酸铁锂电池从热失控触发温度T2(150-250℃)到最高 温度T3(一般不超过500℃)之间,时间仅需要30~60s。 在IT设备功率密集的环境下,冷却系统的故障可能迅速放大,导致机柜过热。在故障发生时,考虑到IT设备的单位时间发热量是传统计算机的4到5倍,散热压力大幅增加。另外对于故障的应急处置,传统的数据中心可能会采用直通风、干冰风扇等临时措施。然而,在液冷高密场景,这些传统方法可能不再适用。通常情况下,对于一个30干瓦的机柜,如果采用板式液冷加直通风的散热方案,在二次管路出现故障时,可供反应的应急时间可能仅有30秒至1分钟。 变配电系统中的电气连接触点随着设备运行时间增加,在施工质量、潮湿和灰尘腐蚀、震动应力共同影响下,产生接触面腐蚀或松动,最终导致触点温度异常,这类问题在低负载时不易察觉,但在负载增加时可能瞬时突然爆发,对数据中心的电力安全构成严重威助。 在以上这些情况下,完全依赖人工进行应急处理就会非常被动。因此,迫切需要开发出预测性维护技术,以便能够提前发现潜在的故障并及时介入处理。 ?预测性维护可帮助数据中心实现故障主动预防 在数据中心中,预测性维护是一种利用大数据和人工智能(AI)算法,对设备的运行状态进行实时监测和分析,从而提前预测和诊断故障的策略。 例如,基于大数据和云计算等技术,积累了长期大规模锂电池数据,能够捕捉安全隐患的变化情况,实现安全特性和质量缺陷发展特征的建模和识别,通过监测锂电池的温度、电压、电流等参数,可以预测出电池的健康状态和剩余寿命,及时进行充放电管理和更换,防止电池过热或过放引发的安全事故。 在高密液冷场景下,通过监测液冷管路的流量、压力等参数,通过参数异常预警提醒运维人员及时进行异常排查与整改,可防止漏液情况发生而引起的机房高温。 在变配电系统中,通过温升模型结合定时采集的铜排触点电流、环境温度、相邻触点温度信息推理得到当前负载下的合理温度,当触点实测温度超过合理温度时,说明该接触点存在温度异常的问题。通过过温预警提醒运维人员及时进行整改,可防止高温起火导致的电力中断 通过这些措施,可以使数据中心的安全管理从披动的救火模式转变为主动的防火模式,大幅缩短故障的应急处理时问,提升数据中心的可靠性。 ①技术与应用 深圳某大数据中心,建成后可提供约1.56万个机柜,满足未来5-10年智慧城市和数字政府发展需求。其中供配电系统采用了华为电力模块解决方案,可实现全链路温度检测,AI低载高温预警,提前预警维护,满足了高可靠及快速部署需求。 07 全生命周期的网络安全防护体系将成为数据中心基础设施的保护盾 随着全球数字化、网络化和智能化进程的推进,网络安全漏洞数量、严重程度以及受关 注度都在急剧升,据CNNVD安全动态统计:2018至2022年连续五年漏洞数量呈