冷板式液冷服务器可靠性白皮书ODCC-2022-05005 分布式存储技术与产业分析报告 1 [编号ODCC-2022-05005] 冷板式液冷服务器可靠性白皮书 开放数据中心标准推进委员会 2022-09发布 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 编制说明 本报告由超聚变数字技术有限公司牵头撰写,在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员: 参编单位(排名不分先后): 超聚变数字技术有限公司、中国信息通信研究院(云大所数据中心团队)、百度在线网络技术(北京)有限公司、京东、中航光电科技股份有限公司、中 国移动通信集团设计院有限公司、万国数据服务有限公司。参编人员(排名不分先后): 贾晖、郭亮、谢丽娜、李静、熊家振、熊星、于美泽、李代程、任冰、陈国峰、蔡岳霖、王贵林、冯亚利、黄胜利、娄小军、李金峰、吴宏杰、衣斌。 项目经理: 周冬冬zhoudongdong@xfusion.com II 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 前言 数字经济时代,算力是国民经济发展的重要引擎,是衡量经济发展新的核心指标之一。随着算力需求的增加,算力设备产生的热量也在不断增加,为了使芯片等主要部件能在比较适宜的温度下工作,发挥出最佳性能,需要加大对设备散热系统的投入。2022年,“双碳”之路任重道远,“东数西算”工程对于八大枢纽节点数据中心的PUE等能耗技术指标,也提出了更高的要求。相对于传统的散热技术而言,液冷将成为数据中心的主要散热技术,数据中心也将逐步迈入液冷时代。 随着数据中心所需应对的业务规模和复杂度不断提升,数据中心功率密度正在节节攀升,且对于大多数传统数据中心而言,30%以上的能源消耗来源于制 冷系统。因此,如何降低数据中心的能耗,成为了国家和地方政府关注的重点,大型及以上数据中心PUE<1.3已成为我国对数据中心建设的基本要求。 本报告围绕冷板式液冷服务器的可靠性,详细介绍了冷板式液冷服务器的 解决方案、冷板式液冷服务器可靠性保障等内容,并通过列举典型的应用案例,展示当前我国冷板式液冷服务器的发展水平。 II 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 目录 版权声明I 编制说明II 前言III 一、先进液冷数据中心的必备要素1 (一)高密算力1 (二)简易部署和维护1 (三)可靠液冷防护和智能监控2 二、冷板式液冷的优势2 三、冷板式液冷服务器解决方案3 (一)冷板液冷解决方案概述3 (二)液冷整机柜服务器解决方案4 1.高密度5 2.高能效5 3.高可靠5 4.极简运维7 (三)冷板式液冷主要失效模式7 四、冷板式液冷服务器的可靠性保障8 (一)防泄漏功能分析8 (二)防堵塞功能分析9 (三)兼容性(耐腐蚀)可靠性分析10 (四)机械应力可靠性保障10 (五)环境可靠性保障12 I 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 (六)电气安全要求13 1.针对液冷部件加压充液的元器件的要求13 (七)电磁兼容要求14 (八)电磁兼容/电气安全试验方法14 1.电磁兼容试验14 2.电气安全试验14 五、应用案例15 (一)超聚变液冷解决方案15 (二)京东液冷解决方案16 V 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 一、先进液冷数据中心的必备要素 5G、AI、大数据、云计算等新一代信息技术快速发展,数据呈现爆炸式增长。承载算力基础设施的大数据中心建设也需要更多的关注新技术所带来的新要求。液冷在政策、技术、环境等多方影响和需求之下,成为数据中心建设过程中愈发重要的部分。液冷在解决高密数据中心带来的高能耗问题上有着得天独厚的优势。 根据相关国家政策要求,在未来布局的算力枢纽8大节点中,东部地区大型及以上数据中心PUE需要降低到1.25以下(包括华南地区),西部气候适宜地区大型及以上的数据中心PUE需要降低到1.2以下,且要求制冷系统采取新的解决方案。 先进的液冷数据中心通常应具备如下要素: (一)高密算力 液冷数据中心适合提供高密算力,提升单柜部署密度,提高数据中心单位面积利用率。 液体相对空气能够传热更快(相差20~25倍),能够带走更多热量(相差2000~3000倍),给高密部署提供了较好方案。通常液冷数据中心单机柜可以支持30kW以上的散热能力,并能较好演进到100kW以上。 (二)简易部署和维护 液冷数据中心服务器部署时,对快速部署和简化维护提出更高要求。 液冷服务器在风冷服务器已有供电、交换网络的基础上,增加供水和回水2个液冷水路,能够将供电、网络、液冷水路做到即插即用,即拔即断,会给部署和运维带来极大便利。 1 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 单机柜服务器密度的提升,带来机柜内供电、网络、液冷水路数量和复杂度的提升,将单个机柜整体做到出厂预制装配完成,现场部署交付效率将大大提升(从一周以上的部署,缩短到1天交付),整机柜液冷服务器将是一个较好解决方案。 (三)可靠液冷防护和智能监控 液冷数据中心在增加液冷水路,在故障防护、故障检测、故障隔离等智能化运维上提出更高要求。要能从服务器、机柜、微模块各个层次上做到全面可靠性措施,才能够更好确保液冷服务器安全稳定运行。 二、冷板式液冷的优势 随着摩尔定律变缓,芯片算力与功耗同步大幅提升:2022年Intel第四代服务器处理器单CPU功耗已突破350瓦,英伟达单GPU芯片功耗突破700瓦,AI集群算力密度普遍达到50kW/柜,风冷散热技术面临极大的挑战。 芯片算力密度提升带来单柜功耗上升(芯片的演进和服务器功率的提升,驱使数据中心能耗密度提升,预测未来15-20KW机柜成为主流)。 自然风冷的数据中心单柜密度一般只支持8-10KW,冷热风道隔离的微模块加水冷空调水平制冷在15KW以上性价比将大幅降低;相比较而言液冷的散热能力和经济性均有明显优势。 2 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 图1液冷数据中心制冷架构示意图(典例) 液冷技术按照液体与发热器件接触方式分为非接触式液冷和接触式液冷,液冷服务器分为非接触式的冷板、接触式的浸没与喷淋等技术方向。 冷板式液冷已经在HPC、AI高密计算领域商用超过8年时间,技术成熟,生态完善、总体成本可控。更关键的是冷板式液冷不改变客户的使用习惯,硬盘、光模块等部件与风冷一致,运维模式、机房承重与风冷场景也基本一致,同时单点散热能力在700瓦以上,可以有效降低数据中心PUE,更适合规模商用。 浸没式液冷可以获得更好的PUE值,近年也逐步开始在云数据中心尝试应用,但是部件需要定制,工质沉重、价格高且有挥发性,维护需要专用维护设备,机房承重也提出了更高的要求。未来随着工质和定制部件的价格走低,业界认为在高功率密度机柜中浸没式液冷也将有一定的发展。 三、冷板式液冷服务器解决方案 (一)冷板液冷解决方案概述 冷板式液冷是指采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术。其中,热量通过装配在需要冷却的电子元器件上的冷板,再通过冷板与液体工质的热交换实现的方式,称为非接触式液冷。其与浸没或喷淋式液冷技术不同,后者主要是指电子元器件(通常在 3 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 热源表面也需要安装散热翅片,以增加热交换面积)与冷却工质直接接触的冷却方式。 在产业内超过10多年的液冷研究中,根据客户需求不断淬炼,冷板式液冷 服务器(及其基础设施)形成了成熟可商用解决方案,图2所示即为其中之一的制能架构图。该解决方案通过冷板和CDU带走了IT设备超过80%的热量,该部分直接由冷却塔带走;另外20%的热量通过创新的后置被动式液冷门(无风扇),经由冷水机组和冷却塔之间的换热,支持25-28℃高温水带走热量(高于行级空调18℃以下供水温度),可以在全年大部分时间不开冷水机组,仅在夏季需要少量补冷,从而做到制冷PUE最佳。 图2冷板式液冷制冷架构图(典例) (二)液冷整机柜服务器解决方案 具有高密度、高性能、高能效、高可靠、一体化交付、极简运维、低TCO等特点,适用于云计算、虚拟化、大数据、HPC等各种应用。可广泛部署在企业、IDC、运营商、互联网等数据中心。 可采用全液冷方案为服务器提供散热,即采用冷板+液冷门结合的方式实现服务器热量100%由工质水带出机房,去空调化的设计和冷水机组使用时间的减少,达到了节能降耗的目的,落实“东数西算”战略中对大型及以上数据中心PUE<1.25的要求。 4 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 1.高密度 企业为了满足自身业务云化发展需求而集中建设的数据中心基础设施,包括基础设施服务IaaS、平台服务PaaS、业务服务SaaS,其中IaaS又分计算、存储、网络、安全等基础服务。液冷服务器比较适合云计算中的计算资源虚拟化、大数据的存算分离的计算节点等计算密集型应用场景。 液冷整机柜高密节点部署,单柜算力密度较一般机柜算力提升数倍。例如,某一体化47U机柜配可配高达72个双路节点,单柜功率达到33kW支持32台 1U液冷服务器节点,可支持128颗CPU,单机柜最大支持66kW供电。 2.高能效 全液冷环境情景下,服务器节点可运行在更高频率,拥有超强计算能力。低PUE:某典型节点采用CPU、内存冷板覆盖,液冷占比达80%,制冷PUE 可达到小于等于1.15。 高效CPU液冷:CPU高密铲齿冷板,直接液冷换热效率最高可达90%。高效内存液冷:内存采用铲齿加热管,冷却效率最高可提升至90%。 3.高可靠 典型场景下,电源模块最大可采取22+2配置,支持两台交换节点配置,服务器节点风扇N+1配置,支持环温降额5℃,全无源Cable背板。 三级防漏液设计:节点、机柜和机房三级防漏液设计,保障零漏液事故。 节点:节点底座全密封,可导流,漏液及时疏导,无法漏到机柜内其他节点。 机柜:快接头漏液放置喷射设计,机柜电磁阀自动控制制冷液。 机房:双环路设计,单个机柜由于漏液隔离后,不影响其他机柜正常运行。 5 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 图3节点、机柜和机房的主要结构(典例) 漏液全监控:整机柜三级漏液检测能力,漏液精细化告警能力。 节点:使用水浸绳套管检测节点漏液,通过漏液检测板上报BMC进行监控告。 机柜Manifold:分别在进水和出水安装光电式漏液传感器,通过RMU监控告警上报网管平平台。 风液换热器(液冷门):通过在浮子来监控风液换热器的冷硬水位,通过 RMU监控告警上报网管平台。 系统可靠性:覆盖故障预测、诊断和自愈能力,从救火式运维到运筹帷幄。智能故障诊断:智能故障管理引擎,故障诊断准确率可高达93%。 AI硬盘故障预测:搭载AI算法提前7-30天预测出硬盘风险盘。 AI内存故障自愈:支持内存故障自愈及PCIe故障隔离、减少业务宕机。 一体化交付支持除风液换热器及机柜门的整柜运输(含机柜、服务器节点、交换节点、管理模块、电源框、电源模块、传感器等)。 6 冷板式液冷服务器可靠性白皮书ODCC-2022-05005 4.极简运维 液冷整机柜服务器可采用一体化设计,实现液冷水路、供电、交换网络三总线全盲插设计,实现