推荐语 OCTC开放计算标准工作委员会 液冷行业在数据中心领域的应用和发展,已经成为了数字化时代不可或缺的一部分。随着数据量的爆炸式增长,传统的风冷技术已经难以满足高密度服务器的散热需求。而液冷技术,作为一种高效、绿色的冷却方式,正逐渐成为数据中心建设的首选。本文详细介绍了液冷技术的背景、技术优化方向以及全液冷服务器系统的设计、验证和展望。通过对液冷技术的深入剖析,我们可以看到其在数据中心节能减排、提高计算力和生产力的巨大潜力。在未来,液冷技术将继续发挥重要作用,为数字经济的发展提供有力支撑。 辛公明|山东大学能源与动力工程学院教授、党委书记 面对能耗挑战与双碳目标,液冷技术成为数据中心领域的前沿焦点。本文系统介绍了液冷技术的演进、全液冷冷板系统的设计与实践,以及铝冷板方案的具体实施与测试。内容详实,层次分明,为研究者与实践者提供了宝贵的参考资料。本文不仅梳理了液冷行业的发展背景,还深入探讨了液冷技术的优化方向。对于数据中心行业而言,液冷技术的推广应用将有助于实现节能减排,推动绿色算力的发展。希望此文能激发更多人关注液冷技术,共同为绿色低碳数据中心建设作出贡献。 陈葆立|英特尔数据中心与人工智能集团副总裁兼中国区总经理 数字化和绿色低碳已经成为经济与社会高质量、可持续发展的关键推动力。中国“双碳”目标的提出,更让数字化与绿色低碳相互协同,加速推动数字基础设施和算力底座优化升级,推进千行百业更快速实现碳中和转型。英特尔植根中国,携手战略合作伙伴浪潮信息积极行动,不断协同推进技术创新,践行数字化及绿色战略,助力中国加速实现“双碳”目标。本项目就是在上述背景下,由英特尔中国和浪潮信息通力合作完成。为应对 IT 设备功耗和功率密度的持续增加、数据中心PUE要求日益严格的挑战,本项目探索出更经济、更高效的基于冷板的全液冷解决方案的参考设计和验证方法。 目录 第一章 液冷行业背景及技术优化方向03 1. 液冷行业背景及政策2. 液冷数据中心主流技术介绍及对比3. 先进冷板液冷数据中心介绍4. 冷板液冷服务器设计技术优化方向04070809 第二章 全液冷服务器系统架构设计10 1. 全液冷冷板服务器创新实践2. 系统组成及管路布局3. 通流方式选择及流量计算111213 第三章 全液冷服务器冷板关键部件设计16 1. CPU冷板设计2. 内存液冷设计3. 硬盘液冷设计4. PCIe/OCP卡液冷设计5. 电源冷板设计1717181921 第四章 全液冷服务器冷板性能测试23 1. 测试项目介绍2. 测试结果分析2425 第五章 铝冷板全液冷方案设计与测试29 1. 铝冷板全液冷方案设计2. 铝冷板性能与兼容性测试3. 铝冷板测试结果及分析303132 1. 全液冷冷板技术应用拓展36 2. 冷板液冷新技术展望37 第一章液冷行业背景及技术优化方向 1. 液冷行业背景及政策2. 液冷数据中心主流技术介绍及对比3. 先进冷板液冷数据中心介绍4. 冷板液冷服务器设计技术优化方向 1.液冷行业背景及政策 国家十四五规划提出大力发展数字经济,计算力代表着生产力,而计算力的承载体就是数据中心。根据IDC发布算力报告指出:算力提升与经济发展成正相关关系,计算力指数每提高一个点,数字经济会增长3.5%,GDP会增长1.8%。 1.1数据中心行业发展及问题 数据中心基础设施作为算力的载体已成为支撑数字经济的“数字底座”,而其本身也是碳排放“大户”,2022年,中国数据中心碳排放量相当于5000万辆燃油汽车的年排放总量。在双碳目标下,作为“耗电大户”数据中心的节能减排备受关注。 当前,芯片功耗与服务器功耗逐步上升。与之对应,单机柜功率密度也不断增大。根据相关机构调研,2020年数据中心平均机架功率为8.5kW/机柜,相比于2011、2017年有明显提高,年复合增长率达到15%。高功耗芯片,高密度服务器及单机柜密度的演进,对于传统风冷散热来说,既容易出现局部热点,影响换热性能;又需要不断降低送风温度,增大送风风量,影响制冷能耗。因此,传统风冷制冷模式在换热性能及能耗优化方面逐步受限。 液冷是一种新兴的冷却技术,该种技术通过采用液态冷却工质流动方式带走发热元件热量替代风冷换热中采用空气换热的模式。与风冷对比,液冷技术可以更好地支持高功耗芯片解热,保持芯片低温运行,延长寿命;充分利用室外自然冷源冷却,降低数据中心PUE;提高关键部件换热效率,减少服务器散热热点,支持机柜更高密度;降低数据中心噪声,提升数据中心环境适应性。因此,未来数据中心建设中,液冷技术的应用将会是在数据中心制冷方向的重要组成部分,也是实现绿色算力和双碳目标达成的重要举措。 “碳中和”成为全人类共识,已有130多个国家宣示了碳中和承诺。近年来随着数据中心规模快速增长,其耗电量约占全球总用电量的2%,且还在急剧增加。《Uptime全球数据中心报告2022》指出,2014年以来,全球大型数据中心PUE连续8年维持在1.6左右,数据中心能效水平仍存在较大优化空间。为推动数据中心绿色发展,多个国家、国际组织发布相关政策。 1.2数据中心行业政策介绍 多地已开始限制高PUE的数据中心的建设,相关政策和数据中心机房对PUE提出明确限制,鼓励液冷技术、IT设备高密度集成技术及IT设备能效提升技术实施,促进数据中心液冷技术进一步发展。 标准化是衡量技术成熟度的重要凭证,对于液冷数据中心的标准化建设,一直以来都是行业领域、学术界与工业界关注的重点。 国内标准方面,已发布1 项与电子设备相关的冷板液冷国家标准,GB/T 15428-1995《电子设备用冷板设计导则》。该标准主要规定电子设备使用的冷板换热计算和结构设计,对于冷板核心参数定义,性能定义,材料定义,加工工艺,漏液检测定义和测试方法及要求均不涉及;同时据统计,近五年来国内有十余家标准组织或技术组织正在开展液冷技术相关的标准化工作,已发布行业标准9项,团体标准28项,涉及液冷部件,节点,系统和数据中心四个层面的技术要求和测试方法,适用于液冷系统的设计、施工、部署、运维、测试等环节的技术指导(清单详见下表);此外国内也已发布20余项白皮书或研究报告成果。 在国外标准方面,ASHRAETC9.9定义了供给冷量分配单元的一次侧冷却水的温度等级,从W17 到 W+ 共 6 个温度等级,详细内容如下表所示。 2.液冷数据中心主流技术介绍及对比 冷板液冷和浸没式液冷是目前数据中心行业应用的两种主流液冷技术。冷板式液冷是指采用液体作为传热工质在高导热金属冷板内部流道流动,通过热传递对热源实现冷却的非接触式液体冷却技术。浸没式液冷是将发热电子元器件直接浸没在非导电冷却工质中,通过冷却工质循环流动来进行散热的接触式冷却技术。根据液冷工质在换热过程中是否会发生液气相转变,冷板和浸没式液冷又分成单相式和两相式。单相冷板和单相没式液冷由于技术相对简单,在教科研、互联网和通信等多行业里已经有一些典型部署案例。 2.1数据中心行业发展及问题 相比单相浸没式液冷,单相冷板式液冷主要有以下优势: 技术相对成熟,生态完善,对机柜和服务器改造小,初投资少,成本优势明显。不改变客户的使用习惯,运维模式、机房承重与风冷场景也基本一致。冷却工质不直接接触芯片和服务器内其他部件,对材料兼容性要求低,可以相对容易地与不同厂商和型号的计算设备兼容,提供更多的硬件选择空间;对服务器高速链路信号完整性也无影响。占用空间相对较少,适合于对空间有限制的数据中心和计算环境。对冷却工质的需求量少,冷板液冷冷却工质相比浸没式液冷用氟化液也更加环保。单芯片散热能力在1kW以上,相比单相浸没式液冷有更高的单点散热能力。 除此之外,相比于单相浸没式液冷,单相冷板式液冷(以下均简称为冷板式液冷)的缺点主要集中在以下几个方面: 数据中心系统PUE更高:由于冷板式液冷服务器中冷板结构多数仅覆盖CPU、GPU等高功耗发热部件,其余部件常以风冷辅助冷却,服务器仍需配置冷板及风扇两套冷却部件,数据中心需要配置CDU和空调两套冷却系统。随着空调及压缩机制冷,通常冷板液冷数据中心PUE高于浸没式液冷系统。 系统存在漏液短路风险:冷板式液冷系统通常冷却工质选择去离子水或乙二醇/丙二醇水溶液,如果冷却工质与冷板材质选择和后期维护不当,长期运行后可能出现腐蚀,导致冷却工质泄露,最终对服务器造成宕机或者烧板的风险。基于上述冷板式液冷的优劣势情况,鉴于冷板式液冷在整体系统架构改造,产业链成熟度,初投资等方面均有优势。如果冷板液冷能够逐步增加液冷覆盖面积,同时避免因冷却工质泄露导致的系统短路风险,冷板式液冷优势会更加明显。 3.先进冷板液冷数据中心介绍 为了更清晰地了解先进冷板式液冷数据中心形态功能及应用情况,选取行业数据中心典型代表进行分析,详细数据如下: • Frontier 3.1先进冷板液冷数据中心介绍 Frontier系统安装在美国田纳西州ORNL橡树岭国家实验室,系统总共配有74个独立机柜,包括9408个CPU和37632个GPU,搭载 CPU 和 GPU的9408个刀片服务器通过全冷板液冷的方式进行冷却散热。 • Aurora Aurora系统安装在美国能源部下属阿贡国家实验室,根据规划,Aurora在建设完成后将配备21248个CPU, 63744个GPU,搭载 CPU 和 GPU的10624个刀片服务器通过全冷板液冷的方式进行冷却散热。 Frontier和Aurora数据中心均采用了冷板全液冷高密服务器架构,冷板全液冷顾名思义就是用冷板液冷技术实现服务器内接近100%的热捕获。冷板全液冷服务器在全球很多高算力,高供电密度的数据中心中已有很多商业部署案例,其带来的好处是 3.2数据中心特点及问题分析 高效节能与静音:服务器内去风扇,数据中心去空调化运行,数据中心PUE低至1.1以下,运行噪音低于60dB。这对于大规模高密度计算集群来说是一个重要的优势,有助于进一步提高能源使用效率,把更多的电力用于提升算力。 高集成:采用全液冷技术,利用一套高温水系统可以实现系统换热,机房内部无需空调冷凝器设备,机房外部无需额外配置空调蒸发器,冷水机组及各项管路,全液冷服务器布置可以通过去除空调系统及相应基础设施节省30%以上的空间。 高密度:全液冷产品可以忽略风扇及空调的影响,使服务器的布置和机柜内排布更紧密,单机柜可支持100KW以上,无需安装冷热通道封闭设施,节省了大量的空间,从而能够在单位空间布置更多的服务器,提高数据中心运算效率。 除去以上全液冷冷板系统应用可以带来的诸多好处之外,全液冷冷板服务器系统大规模推广应用还存在很多挑战,需要后续逐步优化去解决: 随着服务器内液冷覆盖率的增高,服务器冷板液冷环路设计复杂度提升,对适合的服务器系统架构有一定要求,需要设计者在早期就针对全液冷方案规划合理的服务器架构设计,减少全液冷环路设计的复杂性。 随着液冷环路包含的部件增多,服务器内冷板方案的重量和体积也会有大幅提升,对液冷环路的安装和维护带来更多挑战。 服务器内冷板方案的成本也会随着液冷覆盖率的提高而有所提升,需要通过部件液冷方案设计优化及标准化以促进规模应用,降低成本。 4.冷板液冷服务器设计技术优化方向 结合冷板式液冷特点及行业先进液冷数据中心分析,冷板液冷未来技术优化方向主要围绕通过技术创新进一步提高能效,降低初投资成本,减少漏液安全隐患及提高运维便利性展开。 完善部件液冷方案, 提高液冷覆盖率。除CPU, GPU,内存之外,目前业界对服务器内其他发热部件如何通过冷板液冷实现经济有效散热的探索还比较少,方案尚未成熟,价格昂贵,有待通过设计方案的创新实现标准化,规模化应用的经济性和可靠性,进一步提高冷板液冷数据中心能效,减少数据中心空调用量和成本,降低冷却系统复杂度。 提高通用化及可维护性。目前已知的全冷板液冷方案大多基于高度定制化服务器设计,液冷方案无法灵活适用于传统通用服务器