冷板液冷服务器设计白皮书ODCC-2023-01008 1 [编号ODCC-2023-01008] 冷板液冷服务器设计白皮书 开放数据中心委员会 2023-09发布 冷板液冷服务器设计白皮书ODCC-2023-01008 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 冷板液冷服务器设计白皮书ODCC-2023-01008 编写组 项目经理: 董少杰中移动信息技术有限公司工作组长: 王峰中国电信股份有限公司研究院贡献专家: 阮前中移动信息技术有限公司 肖爱元中移动信息技术有限公司刘玲中移动信息技术有限公司许豪豪中移动信息技术有限公司孙翠锋中移动信息技术有限公司黄山中移动信息技术有限公司李圣义中移动信息技术有限公司高从文中移动信息技术有限公司 曹原铭中国移动通信集团设计院有限公司雷鸣中国移动通信集团设计院有限公司刘芹中国移动通信集团设计院有限公司封铎中国移动通信集团设计院有限公司 谢丽娜中国信息通信研究院(云大所数据中心团队)李宁东中国信息通信研究院(云大所数据中心团队)单彤超聚变数字技术有限公司 张丙库超聚变数字技术有限公司苏金炎超聚变数字技术有限公司冯思渊超聚变数字技术有限公司 II 冷板液冷服务器设计白皮书ODCC-2023-01008 常乾坤曙光数据基础设施创新技术(北京)股份有限公司刘明岩曙光数据基础设施创新技术(北京)股份有限公司徐欣曙光数据基础设施创新技术(北京)股份有限公司孙晓光华为技术有限公司 高俊恩华为技术有限公司 相文博浪潮电子信息产业股份有限公司温春光浪潮电子信息产业股份有限公司张子徐浪潮电子信息产业股份有限公司徐旭东烽火通信科技股份有限公司 蔡财义烽火通信科技股份有限公司许银录烽火通信科技股份有限公司冯亚利中航光电科技股份有限公司董玉山中航光电科技股份有限公司钟凤舞深圳忆联信息系统有限公司李海平深圳忆联信息系统有限公司 金超强普洛斯普瑞数据科技(上海)有限公司张安娜中科可控信息产业有限公司 赵雷宁畅信息产业(北京)有限公司 III 冷板液冷服务器设计白皮书ODCC-2023-01008 前言 本规范由开放数据中心标准推进委员会发布。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 IV 冷板液冷服务器设计白皮书ODCC-2023-01008 目录 版权声明I 编写组II 前言IV 一、引言1 二、液冷技术分类2 (一)非接触式液冷2 (二)接触式液冷3 (三)液冷技术对比4 三、冷板式液冷部件选择7 (一)冷却液7 (二)快接头7 (三)冷量分配单元(CDU)8 (四)冷板10 (五)服务器液冷管路11 四、液冷服务器要求12 (一)整机柜服务器的要求12 1.通用算力整机柜服务器要求12 2.AI算力整机柜服务器要求14 3.整机柜设计要求16 (二)单节点服务器的要求19 五、液冷带来的变化21 (一)液冷三种交付模式及优劣势21 (二)液冷机房配套要求24 (三)液冷运维与风冷运维的对比分析26 V 冷板液冷服务器设计白皮书ODCC-2023-01008 六、应用案例28 (一)超聚变金融领域液冷应用案例28 (二)超聚变科教领域液冷应用案例28 (三)浪潮金融领域液冷应用案例29 (四)曙光互联网领域液冷应用案例29 (五)曙光IDC领域液冷应用案例30 (六)曙光气象领域液冷应用案例30 (七)烽火科教领域液冷应用案例31 (八)华为IDC领域液冷应用案例31 (九)华为AI领域液冷应用案例32 VI 冷板液冷服务器设计白皮书ODCC-2023-01008 冷板液冷服务器设计白皮书 一、引言 随着我国数智化转型的逐步推进,在数智化中起决定性作用的算力对生活、服务、经济的影响越来越大。为了满足日益增长的算力需求,全国数据中心的规模也随之迅速增长。国家互联网信息办公室发布的《数字中国发展报告(2022年)》显示,截至2022年底,我国数据中心机架总规模已超过650万标准机架,近5年年均增速超过30%,在用数据中心算力总规模超180EFLOPS,位居世界第二。 数据中心及机架规模的快速增长,导致数据中心用电量急剧攀升。2021年全国数据中心耗电量达2166亿度,约占全国总耗电量的2.6%,碳排放量1.35亿吨,占全国总排放量的1.14%。为了降低数据中心能耗,助力实现双碳目标,政府鼓励重点行业利用绿色数据中心等新型技术实现节能降耗,要求全国新建大型、超大型数据中心平均电能利用效率(PUE)降到1.3以下,国家枢纽节点进一步降到1.25以下,绿色低碳等级达到4A级以上。 同时,随着服务器核心计算芯片的更新换代,服务器单芯片功耗将达到500~1000W,风冷散热能力有限,机柜空间剩余现象愈发明显。GPU服务器、高性能计算服务器等设备的发展及功率密度的增加对数据中心的制冷水平提出了更高的要求。另外,风扇作为IT设备主要散热部件,其功耗在IT设备总功耗中占比越来越高,反向提高数据中心整体PUE,与国家节能降耗政策要求相悖。 液冷技术通过用冷却液体替代传统空气散热,液体与服务器高效热交换,大幅提高服务器散热效率和业务系统可靠度,并且环境 1 冷板液冷服务器设计白皮书ODCC-2023-01008 适应性好,可以减少土地占用,因此逐步成为一种数据中心制冷新型解决方案。 二、液冷技术分类 传统风冷使用空气作为换热介质,液冷数据中心使用工质水或者氟化液等液体作为换热介质。由于密度、比热容和导热系数的差异,相同流量的液体相比空气散热能力最高可提升3500倍。 根据冷却液与发热源的接触方式,液冷技术可以分为非接触式液冷和接触式液冷两大类。 (一)非接触式液冷 非接触式液冷主要指冷板式液冷,将服务器发热元件 (CPU/GPU/DIMM等)贴近冷板,液体在冷板内流动,带走发热元件的热量,液体不与发热源直接接触,冷却液多采用去离子水。冷板式液冷原理如下图所示: 图1冷板式液冷原理示意图 冷板式液冷换热热阻较大,相比传统风冷散热技术可实现60%~90%的能耗降低,数据中心PUE值能降至1.2左右,同时,可保持传统机柜方式部署,部署密度较高,对当前机房配套和服务器改造难度和成本较小。但由于其只对服务器中的高发热元件采用液冷散热,因此,仍需少量风扇对服务器中的非液冷元件进行风冷散热.另外,还需考虑液体泄露风险。 2 冷板液冷服务器设计白皮书ODCC-2023-01008 (二)接触式液冷 接触式液冷的液体与发热源直接接触,包括浸没式液冷和喷淋式液冷两种。 (1)浸没式液冷 浸没式液冷将服务器浸没在冷却液中,通过液体温升或相变带走服务器中所有发热元件的热量,液体与发热源直接接触,冷却液多采用矿物油、氟化液等不导电、非腐蚀性液体。浸没式液冷原理如下图所示: 图2浸没式液冷原理示意图 浸没式液冷可完全去除散热风扇,换热能力强,节能效果好,数据中心PUE值可降至1.1及以下,但一般需要改为箱式部署,部署密度一般低于冷板式液冷,机房配套和服务器改造难度和成本也较大。 根据冷却液在冷却子系统中形态的不同,浸没式液冷可以分为单相浸没式液冷和相变浸没式液冷。单相浸没式液冷的冷却液在整个冷却子系统的循环过程中都以液体的形式存在,相变浸没式液冷的冷却液在对设备制冷后吸热变为气态,相变后的气态冷却液被浸没腔体子系统内的冷凝器冷却变成液体,液体受重力作用流回腔体,完成冷却系统循环。 (2)喷淋式液冷 3 冷板液冷服务器设计白皮书ODCC-2023-01008 喷淋式液冷的冷却液从服务器机箱顶部的喷淋模块滴下来,通过冷却液与发热元件之间的接触进行对流换热,从而为发热元件降温,再通过服务器内的流道汇集至换热器将热量散发,冷却液多采用矿物油、氟化液等不导电、非腐蚀性液体。 喷淋式液冷也可完全去除散热风扇,换热能力强,相较于浸没式液冷节省冷却液,数据中心PUE可降至1.1左右。喷淋式液冷需要对机柜和服务器机箱进行改造,运维难度较大。 (三)液冷技术对比 不同液冷技术的对比如下: 表1液冷技术对比 液冷方案 非接触式液冷 接触式液冷 冷板式 热管式 浸没式液冷 喷淋式 相变浸没式 单相浸没式 投资成本 初始投资中等,运维成本低 初始投资中等,运维成本低 初始投资及运维成本高 初始投资及运维成本高 结构改造及液体消耗成本大,液冷系统初始投资成本低 PUE 1.1-1.2 1.15-1.25 <1.05 <1.09 <1.1 4 冷板液冷服务器设计白皮书ODCC-2023-01008 可维护性 较简单 简单 复杂 复杂 供应商 华为、浪潮、曙光、联想、超聚变等主流供应商 仅浪潮 仅曙光 阿里巴巴、H3C、绿色云图、云酷智能、曙光数创 仅广东合一 应用案例 多 少 超算领域较多 较多 数据中心场景无批量使用 分析 初始投资中等,运维成本低,PUE收益中等,部署方式与风冷相同,从传统模式过渡较平滑 初始投资中等,运维成本低,热管的散热能力有限,PUE收益较低 初始投资最高,PUE收益最高,需使用专用机柜,服务器结构需改造为刀片式 初始投资较高,PUE收益较高,部分部件不兼容,服务器结构需改造 初始投资较高,运维成本高,液体消耗成本高,PUE收益中等,部署方式同浸没式,服务器结构需改造 5 冷板液冷服务器设计白皮书ODCC-2023-01008 综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案,冷板式液冷可以实现从传统风冷模式的平滑过渡,在数据中心领域应用更多。 6 冷板液冷服务器设计白皮书ODCC-2023-01008 三、冷板式液冷部件选择 (一)冷却液 液冷冷却液目前业内选择有乙二醇溶液、丙二醇溶液、去离子水等。其中华为、曙光、超聚变以25%乙二醇溶液为主,浪潮、新华三以25%丙二醇溶液为主。乙二醇溶液、丙二醇溶液为工业标品,可获取性高,乙二醇溶液成本相较于丙二醇溶液更低。冷却液浓度建议在20%~30%,浓度不宜过高,过高会影响工质散热性能;也不宜过低,过低会影响防冻和抑制微生物滋生的能力。 去离子水具有良好的传热性能,无毒安全,可作为冷却液之一,但需注意对冷却液的维护。去离子水的冰点为0℃,需考虑运输、储存、短时停机、业务量较少、服务器已安装未运行等情况下的防冻问题。去离子水需添加缓蚀剂和杀菌剂,否则容易造成铜腐蚀,长期使用容易导致CDU内的铜钎焊板式换热器渗漏。 冷却工质均需要添加缓蚀剂和杀菌剂,防止管路滋生细菌导致堵塞和泄露。 综上,建议采用25±5%浓度的乙二醇溶液作为液冷系统的冷却液。 (二)快接头 快接头是用于节点冷板模组和液冷机柜集分水器之间的水路连接接头,需支持插拔节点时快速连通和截断节点与液冷机柜集分水器之间的水路,并保证不漏液。 快接头分为手插快接头和盲插快接头两种形态,手插接头对运维人员的要求较高,插拔操作依赖机房运维人员,服务器和机柜易于解耦。盲插快接头插拔具备自动化保障,操作方便,连接精度高, 7 冷板液冷服务器设计白皮书ODCC-2023-01008 可满足未来自动巡检、机器人运维需求,但服务器和机柜解耦难度大。 液冷快速接头要满足可维护性、可靠性、流阻性能等多方面的需求,应根据实际应用需求选择合适通径的快接头: (1)免工具维护的需求,可以免工具进行快速接头的断开和接合; (2)连接与断开中冷却液的泄漏不影响日常维护过程,同时不对服务器和机柜造成影响; (3)能兼容不同冷却液; (4)发生故障并需要更换时,能方便更换维护; (5)在指定流量范围内,流阻应尽可能低,降低