人工智能专题研究 温控液冷——AI加速打开增量空间 西南证券研究发展中心通信研究团队2024年3月 核心要点 AI时代算力需求不断提升,液冷散热或将成为降低服务器功耗的有效方案。站在全球视角,全球算力保持高速稳定增长态势。据华为GIV预测,2030年人类有望迎来YB数据时代,全球算力规模达到56000EFLOPS。站在中国视角,据工信部,2023年我国算力总规模达到180EFlops,保持高位增长。算力规模大幅提升带来AI服务器需求暴增,大量高功率CPU、GPU芯片将带动AI服务器功耗走高。当前数据中心制冷技术以风冷为主,考虑到机柜功率超过15kW为风冷能力天花板,而未来AI集群算力密度普遍超20kW/柜,升级液冷需求迫切。 液冷在热换介质、驱动部件、散热能力、节能降耗、噪音、建设成本和选址上优势更为明显。液冷技术利用了液体的高导热、高热容特性替代空气作为散热介质,适用于需提高计算能力、能源效率、部署密度等应用场景。当前液冷技术包括冷板式、浸没式、喷淋式等类型。其中,冷板式液冷技术在可维护性、空间利用率、兼容性方面具有较强的应用优势。而喷淋式液冷技术则通过改造旧式的服务器和机柜的形式,大幅度减少了数据中心基础设施的建设成本。浸没式技术与其他两种技术相比,虽然器件的可维护性和兼容性较差,但空间利用率与可循环方面具有较好的表现,降低数据中心的能耗。从PUE指标来看,风冷技术的均值为1.5-1.8,液冷技术可以将PUE指标降至1.2以下,满足当前绿色数据中心的要求。 预计国内厂商推出大模型将带来百亿液冷解决方案增量空间。据相关测算,随着国内各大厂商陆续推出自身大模型,将会带来44.4亿元的冷板式液冷增量空间与47.6亿元的浸没式液冷增量空间,总计将带来92亿元的液冷方案新增量市场。 相关标的:英维克、高澜股份等。 风险提示:AI发展不及预期;数据中心建设不及预期;国家产业政策变动;市场竞争加剧;新产品拓展不及预期等风险。 1 目录 1液冷技术概述 1.1液冷定义 1.2液冷技术分类 1.3液冷VS风冷 1.4液冷产业链 2液冷行业分析 3液冷重点公司分析 2 1.1液冷定义 液冷是一种采用液体带走发热器件热量的散热技术。液冷技术利用了液体的高导热、高热容特性替代空气作为散热介质,适用于需提高计算 能力、能源效率、部署密度等应用场景。 液冷技术分为接触式及非接触式两种。非接触式液冷是指冷却液体与发热器件不直接接触的一种液冷实现方式,包括冷板式等具体方案。接触式液冷是指将冷却液体与发热器件直接接触的一种液冷实现方式,包括浸没式和喷淋式液冷等具体方案。其中,浸没式液冷又可根据冷却液是否转为为气态划分为单相浸没式液冷和两相浸没式液冷,两相浸没式液冷控制更复杂、要求更高。当前,冷板式液冷、单相浸没式液冷为主要形式。液冷系统通用架构及原理如下图所示;室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含CDU、液冷机柜、ICT设 备、二次侧管网和二次侧冷却液。 液冷系统通用架构原理图 数据来源:中兴液冷技术白皮书,西南证券整理3 三种液冷技术比较 当前液冷技术包括冷板式、浸没式、喷淋式等类型。其中,冷板式液冷技术在可维护性、空间利用率、兼容性方面具有较强的应用优势;但在成本方面,由于其单独定制冷板装置的原因,导致技术应用的成本相对较高。而喷淋式液冷技术则通过改造旧式的服务器和机柜的形式,大幅度减少了数据中心基础设施的建设成本。浸没式技术与其他两种技术相比,虽然器件的可维护性和兼容性较差,但空间利用率与可循环方面具有较好的表现,降低数据中心的能耗。 1.2液冷技术分类 冷板式 浸没式 喷淋式 成本 冷板要求规格多,大多需要单独定制,成本较高 冷却液用量较多,成本居中 通过改造旧式服务器和机柜,增加必要装置,成本较小 可维护性 优秀 较差 中等 空间利用率 较高 中等 最高 兼容性 未与主板和芯片模块进行直接的接触,材料兼容性较强 直接接触、材料兼容性较差 直接接触、材料兼容性差 安装简洁程度 不改变服务器原有的形态,保留现有服务器主板,安装便捷 改变服务器主板原有结构,需重新安装 不改变服务器主板原有的形态,安装便捷 可循环 采用双路环状循环对冷冻液实现二次利用,降低运 营成本 通过室外冷却装置进行循环,降低运营成本 采用循环泵,实现资源的再利用,降低运营成本 数据来源:中兴液冷技术白皮书,西南证券整理4 1.2液冷技术分类 冷板式液冷是一种非接触式的液冷技术。该技术通过液冷板(通常为铜铝等导热金属构成的封闭腔体)将发热器件的热量间接传递给封闭在循环管路中的冷却液体,通过冷却液体将热量带走的一种散热形式。冷板式液冷系统主要由冷却塔、CDU、一次侧&二次侧液冷管路、冷却介质、液冷机柜组成;其中液冷机柜内包含液冷板、设备内液冷管路、流体连接器、分液器等。 冷板式液冷散热原理:1.液冷板与芯片贴合;2.芯片设备热量通过热传导传递到液冷板,工质在CDU循环泵的驱动下进入冷板,之后在液冷 板内通过强化对流换热吸收热量。 冷板式液冷系统原理图 数据来源:中兴液冷技术白皮书,西南证券整理5 1.2液冷技术分类 液浸没式液冷是一种接触式的液冷技术。该技术以冷却液作为传热介质,将发热器件完全浸没在冷却液中,发热器件与冷却液直接接触并进行热交换的制冷形式。浸没式液冷系统室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含CDU、浸没腔体、IT设备、二次侧管网和二次侧冷却液。使用过程中IT设备完全浸没在二次侧冷却液中,因此二次侧循环冷却液需要采用不导电液体,如矿物油、硅油、氟化液等。按照热交换过程中冷却液是否存在相态变化,可分为单相浸没液冷和双相浸没液冷两类。 其中,单相浸没式液冷技术作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显 热变化传递热量。 单相浸没式液冷系统原理图 数据来源:中兴液冷技术白皮书,西南证券整理6 1.2液冷技术分类 双相浸没式液冷作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。其传热路径与单相浸没液冷基本一致。主要差异在于二次侧冷却液仅在浸没腔体内部循环,浸没腔体内顶部为气态区、底部为液态区:IT设备完全浸没在低沸点的液态冷却液中,液态冷却液吸收设备热量后发生沸腾,汽化产生的高温气态冷却液因密度较小,会逐渐汇聚到浸没腔体顶部,与安装在顶部的冷凝器发生换热后冷凝为低温液态冷却液,随后在重力作用下回流至腔体底部,实现对IT设备的散热。 双相浸没式液冷 数据来源:中兴液冷技术白皮书,西南证券整理7 1.2液冷技术分类 喷淋式液冷是面向芯片级器件精准喷淋,通过重力或系统压力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式,属于直接接触式液冷。喷淋式液冷系统主要由冷却塔、CDU、一次侧&二次侧液冷管路、冷却介质和喷淋式液冷机柜组成;其中喷淋式液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。 喷淋式液冷系统原理:在冷量分配单元内冷却后的冷却液被泵通过管路输送至喷淋机柜内部;冷却液进入机柜后直接通过分液器进入与服务器相对应的布液装置,或将冷却液输送至进液箱以提供固定大小的重力势能以驱动冷却液通过布液装置进行喷淋;冷却液通过IT设备中的发热器件或与之相连的导热材料进行喷淋制冷;被加热后的冷却液将通过回液箱进行收集,并通过泵输送至冷量分配单元进行下一个制冷循环。 喷淋式液冷系统原理图 数据来源:中兴液冷技术白皮书,西南证券整理8 液冷VS 风冷 1.3液冷VS风冷 当前数据中心制冷技术以风冷为主。风冷是将空气作为冷媒,把服务器主板、CPU等散发出的热量传递给散热器模块,再利用风扇或空调制冷等方式将热量吹走,这也是散热系统消耗数据中心近半电力的主因。风冷包括直接空气自然冷技术和间接空气自然冷技术。这两种风冷技术效率都比较高,但对环境和安装要求较高,会对IT设备造成损耗降低可靠性。 液冷是一种新型散热方式。2023年液冷的渗透率约为5%。液冷通过外部冷却水或冷冻水系统实现系统换热,具体是使用高比热容的液体作为传热工作介质来满足IT设备(如服务器)的冷却需求。目前,基于液冷技术的主流方案包括冷板式液冷和浸没式液冷两种,喷淋式液冷方案国内实施较少。对比风冷,液冷在热换介质、驱动部件、散热能力、节能降耗、噪音、建设成本和选址上优势更为明显。考虑到从PUE指标来看,风冷技术的均值为1.5-1.8,液冷技术可以将PUE指标降至1.2以下,满足当前绿色数据中心的要求。 风冷 液冷 换热介质 空气 液体 驱动部件 风扇 移除风扇 散热能力 散热能力一般 散热效果好 节能降耗 PUE值2以内 PUE值1.2以内 噪音 噪音高 移除风扇、噪音低 建设成本 机柜只能低密布局,机柜占用 机房面积大,需传统精密空调和冷热通道设计 可带来机柜高密布局设计、减少占用机 房面积、低PUE意味着电源、配电和备份基础设施的规模较少 选址方面 对环境气候、电力因素考虑要求较高 不受空气质量与气候、能源政策限制,全球各地均可 数据来源:曙光数创招股说明书,中兴液冷技术白皮书,西南证券整理9 电信运营商 液冷服务器 1.4液冷产业链 液冷数据中心上游主要为产品零部件,包括接头、CDU、电磁阀、TANK、maniflod等。中游主要为液冷服务器,也是产业链的核心。下游行业主要包括互联网、金融、电信、政府、交通和能源等信息化程度相对较高的行业,涵盖智慧计算、电子政务、企业信息化、关键应用以及民生等相关领域,包括三大电信运营商,以及腾讯、阿里巴巴等互联网大型企业。 上游:产品零部件中游:液冷服务器、液冷集成设施下游 互联网 IDC数据中心 接头 CDU 冷却液 电磁阀 TANK manifold 液冷集成商 数据来源:电信运营商液冷技术白皮书,西南证券整理10 目录 1液冷技术概述 2液冷行业分析 2.1数据中心领域存在问题 2.2数据中心散热发展路径 2.3数据中心液冷技术发展现状 2.4液冷技术形态转变 2.5相关政策法规 2.6数据中心规模预测 2.7液冷系统市场空间 2.8竞争格局 3液冷重点公司分析 11 2.1数据中心领域存在问题 不同类型冷却系统对比 数据中心面临能耗高和散热冷却难两大问题。依托区域能源供应优势和自然环境优势可降低数据中心的用电和散热冷却成本,在能源供应紧张、自然环境不利等现实条件下,破解散热难与高能耗瓶颈,发展绿色高能效数据中心成为行业共识。绿色高能效数据中心需同时实现产热移热速率匹配及能源利用效率提升两个目标,发展和应用新型散热冷却技术成为未来我国数据中心高能效绿色化运行的重中之重。 数据中心连续稳定运行是基本目标,实现该目标的关键问题是产热与移热速率相匹配。随着单位服务器机柜包含的服务器数量增多,机柜发热量与日俱增,对散热冷却系统的要求不断提高。如右图所示,目前发展的散热冷却技术主要有风冷和液冷两大类,在机柜功率密度不断提高的大数据时代,要求散热冷却设备及方式的不断创新,提升移热速率。 数据来源:Engineering期刊《绿色高能效数据中心散热冷却技术研究现状及发展趋势》,西南证券整理12 2.2数据中心散热发展路径 散热冷却需要消耗能量,移热速率的增大势必需考虑能源利用效率问题。衡量数据中心总体能耗水平的指标为能源利用效率(PUE),定义为数据中心总能耗与信息技术设备能耗的比值。在相同IT功耗下,PUE值越接近1,表明其非IT功耗越低,能源利用率越高。如下左图所示,数据中心的总能耗由供配电、照明、散热冷却和IT设备功耗等构成。如下右图所示,当前,我国数据中心能量消耗中的43%用于散热冷却(对应数据中心PUE值大于2),冷却成本高,节能潜力大。 数据中心能源消耗组成示意图 2%