[编号:ODCC-2023-09009] 浸没式液冷 数据中心运维车白皮书 转载、摘编或利用其它方式使用浸没液冷智算产业发展论坛成果中的文字 或者观点的,应注明来源:“浸没液冷智算产业发展论坛”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇 编和翻译出版等侵权行为,浸没液冷智算产业发展论坛及有关单位将追究其法律责任,感谢各单位的配合与支持。 浸没式液冷数据中心运维车白皮书 版权声明 浸没液冷智算产业发展论坛发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 II 参编单位(排名不分先后): 中国信息通信研究院、OPPO广东移动通信有限公司、阿里云计算有限公司 参编人员(排名不分先后): 王荣环、唐虎、郭亮、文芳志、卢象明、孔庆一 项目经理:王荣环 邮箱:wangronghuan@oppo.com 浸没式液冷数据中心运维车白皮书 编制说明 本报告由OPPO广东移动通信有限公司牵头撰写,在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员: III 浸没式液冷数据中心运维车白皮书 前言 互联网行业的飞速发展,带动了一批相关产业的兴起与增长,其中就包含了作为底层基石的数据中心;数据中心,是为集中放置的电子信息设备提供运行环境的建筑场所,一般采用风冷精密空调或水冷精密空调对电子信息设备进行散热,保证其正常运行。而近年来,人工智能等行业的快速进步与迭代,使得芯片功耗的不断走高,进而导致了数据中心单机架的功率从4.4kw升高至8kw、25kw、30kw甚至更高。现有风冷精密空调/水冷精密空调系统的解决方案已达瓶颈,逐渐无法满足电子信息设备的解热需求,因此液冷数据中心应运而生。 液冷数据中心对系统和运维的要求较风冷数据中心更高,同时考虑到液冷服务器重量更大、吊装高度更高等问题,需采用相应配套工具,才能做好整个液冷服务器的运维。因此我们结合自身工程经验,就浸没式液冷数据中心的运维解决方案进行了一定的介绍,比对了不同解决方案之间的优劣势,推荐运维车作为首选方案并进行了相应分析,提供一定建议,期望对于未来浸没式液冷数据中心的运维能提供一定的帮助。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系wangronghuan@oppo.com。 IV 浸没式液冷数据中心运维车白皮书 目录 版权声明II 编制说明III 前言IV 1引言1 1.1目的和范围1 1.2编制依据1 1.3编制原则1 1.4术语解释1 2浸没式液冷背景介绍2 2.1液冷数据中心2 2.2浸没式液冷数据中心4 2.3浸没式液冷数据中心运维6 3浸没式液冷数据中心服务器运维工具8 3.1TANK内置航吊8 3.2机房运维航吊9 3.3运维车10 4浸没式液冷运维车解决方案12 4.1运维车服务对象协同13 4.2浸没式液冷运维车技术方案14 4.2.1浸没式液冷运维车工作环境14 4.2.2浸没式液冷运维车功能15 4.2.3浸没式液冷运维车自动化16 V 浸没式液冷数据中心运维车白皮书 4.3浸没式液冷运维车部署方案17 5浸没式液冷数据中心运维方案畅想19 VI 1引言 1.1目的和范围 本白皮书简单介绍了液冷数据中心背景、浸没式液冷服务器运维等相关内容;通过对比与分析,阐明了浸没式液冷服务器运维与风冷服务器运维的差异性,从而对浸没式液冷服务器运维解决方案及其部署规模提出了建议。本白皮书适用于浸没式液冷数据中心的服务器运维方案选择。 1.2编制依据 本白皮书以国家相关法律、法规以及数据中心行业相关规范为基础,结合了浸没式液冷数据中心后期服务器运维实践案例编制而成。主要参考的规范标准有: 1、GB50174《数据中心设计规范》 2、GB50462《数据中心基础设施施工及验收规范》 1.3编制原则 本白皮书按照实用性原则编制,结合浸没式液冷数据中心的整体特点,对浸没式液冷服务器的运维解决方案选择提出了一定的建议,便于相关从业人员对浸没式液冷服务器的运维。 1.4术语解释 1、数据中心DataCenter;DC 为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑物,也可以是一栋建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等。 2、浸没式液冷ImmersionLiquidCooling;ILC 浸没式液冷是通过将电子信息设备浸入冷却液(非导电液体,如硅油、矿物油、氟化液等)中,由冷却液带走电子信息设备产生热量的一种散热形式。 3、单相浸没式液冷技术Single-PhaseImmersionLiquidCoolingTechnology 为解决数据中心电子信息设备内部元件高发热量问题,把发热电子元器件完全浸没于单相、绝缘冷却液中(冷却过程中冷却液不发生物理状态的改变),利用冷却液的良好热力学显热传热性能,对高热流密度的发热电子元器件进行散热的技术模式。 4、冷却液Coolant 用于冷却电子信息设备元件的液态工作介质。 5、液冷机柜TANK 承载数据中心电子信息设备和冷却液,实现电子信息设备冷却的容器。 6、冷量分配单元CoolantDistributionUnit;CDU 驱动一次冷却环路冷却液工质循环,将设备的热量通过CDU内置的热交换器传到冷却水环路,同时具备温度、流量、压力等控制的单元。 7、浸没式液冷服务器LiquidCoolingServer 浸没于冷却液中,通过冷热交换带走产生热量的一种服务器。 8、浸没式液冷运维车TheOperationandmaintenancevehicleofImmersionCooling 用于浸没式液冷服务器上架、下架、更换部件等操作的运维工具。 9、浸没式液冷运维航吊ImmersionLiquidCoolingOperationandMaintenanceHanger 用于浸没式液冷服务器上架、下架、更换部件等操作的吊架。 2浸没式液冷背景介绍 2.1液冷数据中心 互联网行业的飞速发展,带动了数据中心产业的进步。在数据中心运行过程中,能耗是相关从业工作者最为关注的点之一,行业内通常采用功率密度来衡量单位模块数据中心的能耗大小,目前普遍接受程度最高的数据中心功率密度指标为单机架功率(单位:kW/机架)。 传统数据中心由于单机架功率并不高,因此一般采用风冷精密空调或水冷精密空调作为电子信息设备的制冷系统便可满足其解热需求;而AI人工智能及云计算的出现与飞速发展迭代对算力提出了新的需求,芯片功耗随之不断增长,导致数据中心单机架的功率升高,从4.4kW/机架逐渐升高至8kW/机架、25kW/机架、30kW/机架甚至更高;根据UptimeInstitute发布的《2020全球数据中心调查报告》统计,2011年数据中心平均单机架功率仅为2.4kW/机架,2017年上升到5.6kW/机架,至2020年已达8.4kW/机架,功率的提升对数据中心解热系统提出了新的挑战。 传统数据中心采用风冷精密空调或水冷精密空调对服务器进行解热,既先将空气进行冷却使其温度降低,并通入机柜内部,通过低温空气与电子信息设备的接触带走设备发热量,电子信息设备的发热量与空气物性参数之间的关系如下表达式所示: Q=ρCV△t 式中,Q:电子信息设备的发热量,ρ空气的密度,C空气的比热容,V空气的体积流量,△t空气的送回风温差。 由此可知该系统的制冷效果受到冷却介质本身物理性质及送风量、送回风温差影响,标准大气压下空气的物性参数如表1所示: 表1大气压力101325Pa下干空气的物性参数 t ρ Cp λ*102 a*106 μ*106 ℃” kg/m3 kJ/(kg*K) W/(m*K) m2/s Kg/(m*s) 10 1.247 1.005 2.51 20.0 17.6 20 1.205 1.005 2.59 21.4 18.1 30 1.165 1.005 2.67 22.9 18.6 40 1.128 1.005 2.76 24.3 19.1 由表1可知,空气的密度和比热容都较小,若需满足越来越高的解热密度需求,则应降低送风温度(提高送回风温差)并增大送风风量;但送风温度下降空间有限,送风量也不能无限增大,否则会导致IT设备部件震动从而造成设备的损坏。以空气作为冷却介质的精密空调上限逐渐显露,因此业界开始探索采用液体替代空气作为冷却介质对电子信息设备进行解热,只需要找到密度和比热容较大且与电子信息设备兼容性较高的液体,辅以合适的解热方案,便可提升系统的解热功率密度:液冷技术应运而生。 一般的液冷系统可以分为三种:冷板液冷、喷淋式液冷和浸没式液冷;冷板液冷方案中冷却液采用去离子水,且不与电子信息化设备进行直接接触,而喷淋式液冷与浸没式液冷方案中,冷却液通常采用非导电液体,与电子信息化设备进行直接接触换热。 a)冷板液冷b)喷淋式液冷c)浸没式液冷图1液冷系统的3种不同形式 备注:图片来源于互联网 文主要讨论浸没式液冷数据中心相关运维场景及运维解决方案。 2.2浸没式液冷数据中心 浸没式液冷是通过将电子信息设备浸入冷却液(非导电液体,如硅油、矿物油、氟化液等)中,由冷却液带走电子信息设备产生热量的一种散热形式。在换热过程中,靠冷却液相变潜热交换带走热量的形式称为两相浸没式液冷,靠冷却液显热交换带走热量的形式称为单相浸没式液冷。 本文所述浸没式液冷均为单相浸没式液冷。 浸没式液冷系统内部可分为冷却液换热循环与冷却水换热循环。冷却液在液冷TANK内带走电子信息设备产生的热量并通过冷却液换热循环传至CDU处。冷却水在CDU处与冷却液通过板式换热器进行换热,随后通过冷却水换热循环,将热量传至冷却塔处排至室外大气。其系统原理如图2所示: 图2液冷系统原理图 浸没式液冷的主要设备为液冷服务器、TANK、CDU、冷却塔,如图3所示: a)浸没式液冷设备:TANK+CDU+液冷服务器 b)浸没式液冷设备-TANKc)浸没式液冷设备-CDU 图3浸没式液冷主要设备 TANK:承载数据中心电子信息设备和冷却液,实现电子信息设备冷却的容器。冷却液输入/输出采用2N架构,互为备用,通常采用下供上回的方式将冷却液输送至TANK内以带走服务器产生的热量。浸没式液冷TANK作用类比于风冷系统的机柜。 冷量分配单元(CoolantDistributionUnit,CDU):驱动一次冷却环路冷却液工质循环,将设备的热量通过CDU内置的热交换器传导冷却水环路,同时具备 温度、流量、压力等控制的单元。一般来说,CDU内部包含磁力泵、换热器、压力传感器、温度传感器、电导率传感器等元件。 运行过程中,需保证TANK、CDU、液冷服务器的良好耦合以确保液冷服务器的安全、高效运行。 2.3浸没式液冷数据中心运维 浸没式液冷数据中心运维,一般针对其主要的3大部件,既TANK、CDU、液冷服务器。但考虑到TANK与CDU在运行过程中一般不容易出现故障,因此运维操作主要针对液冷服务器。 常规风冷机柜及服务器设备机柜如图4所示,由于风冷机柜采用侧开门的模式,打开柜门后即可对服务器进行上架交付、下架维护等操作,操作难度较低。 图4风冷机柜与风冷服务器上架方式 与风冷机柜不同,液冷机柜为便于存储浸没式冷却液,柜门开口一般朝上。因此服务器上、下架需从上部进行取出和放入,如图5所示: a)服务器上架b)服务器下架图5浸没式液冷服务器上、下架操作 因此,总体来说,完成服务器上架交付、下架维护等操作,需满足以下条件: 1)将服务器吊装入TANK内(从TANK内取出),至少需要将服务器吊装至一定高度,该高度必须大于TANK高度+服务器高度; 2)需要一个运输工具辅助完成液冷服务器的运输; 3)若需要对液冷服务器内的硬盘等设备进行更换等运维操作,至少需要一个运维平台以便操作。 由于目前浸没式液冷服务器的质量基本大于50kg,且在未来的发展过程中,服务器的质量可能会逐渐提