OCTCBA01—2024 基于标准PCIe接口的人工智能加速卡液冷设计 白皮书 (2024年1月) 开放计算标准工作委员会发布 OCTCBA01—2024 版权保护文件 版权所有归属于该文件的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。 I 目次 前言III 1概述1 2发展趋势1 3术语1 4缩略语2 5总体描述2 5.1冷板式人工智能服务器组成2 5.2冷板式人工智能加速卡组成3 6技术方案3 6.1设计要求3 6.2外观要求4 6.3结构要求4 6.4热性能要求6 6.5可靠性要求7 参考文献9 II OCTCBA01—2024 前言 本文件由中移动信息技术有限公司提出。本文件由开放计算标准工作委员会归口。 本文件起草单位:中移动信息技术有限公司,浪潮电子信息产业股份有限公司,上海壁仞智能科技有限公司,中科寒武纪科技股份有限公司,上海燧原科技有限公司,宁畅信息技术有限公司,中科可控信息产业有限公司,新华三技术有限公司,史陶比尔(杭州)精密机械电子有限公司,中航光电科技股份有限公司,京东云计算有限公司,百度在线网络技术(北京)有限公司。 本文件主要起草人:李圣义,杨洋,李金波,刘广志,罗竣峰,李明杰,周立志,邸贺亮,张政,黄乾明,王辉,朱重兴,孙鹏,李壮,谢泽邦,王周杰,廖嵬,聂超,高亦廷,梅敬青,王思善,王海岩,韩学磊,李伟祖,王伟,李鹏,谢地,董永申,李进宝,王贵林,蔡岳霖,金跃红,郑建武,高从文,刘玲,董少杰,郗卓宁,傅浩杰。 OCTCBA01—2024 基于标准PCIe接口的人工智能加速卡液冷设计指南 1概述 冷板式人工智能加速卡在结构设计、流体快插接头、热性能设计等方面无统一设计要求,服务器针对不同厂商的冷板式人工智能加速卡需要进行结构和散热适配,耗费大量人力、物力。本技术白皮书主要制定标准PCIe接口形态的冷板式人工智能加速卡在结构设计、冷板设计、流体快插接头选型、热性能设计、可靠性设计方面的要求,用于指导冷板式人工智能加速卡的设计。通过本白皮书提供的设计指导,降低服务器和冷板式人工智能加速卡之间的适配难度,降低适配的成本和人力投入。同时降低部署和运维难度,方便终端客户根据业务场景灵活选择相应产品,加速液冷式人工智能加速卡和服务器产品上市。此外,通过统一的设计指导,在冷板本体、流体快插接头等关键组件上产生规模化效益,获取低成本液冷解决方案,推动冷板式液冷技术的普及。 2发展趋势 以AIGC为代表的人工智能大模型的发展,带来了算力需求的指数式提升。AI芯片需要通过提升工作频率或增加运算单元来获得更强的算力,带来人工智能加速卡功耗的不断提升。当前人工智能加速卡单卡功耗已达到350W至600W量级,带来服务器散热功耗的显著提升,在给服务器散热设计带来挑战的同时,也给建设绿色数据中心带来了很大的挑战。液冷技术成为解决人工智能服务器高功耗散热问题、降低数据中心PUE的关键,其中冷板式液冷技术是当前解决人工智能加速卡高功耗问题的主流方案。目前标准PCIe接口形态的人工智能加速卡仍然是业界主流,国内外部分厂商已经推出了相应的冷板式人工智能加速卡,但均是按照自身产品形态特征进行设计,未考虑同行业其他厂商情况,不能作为标准化设计。 同时,虽然冷板式液冷散热技术在CPU、内存、扣板式人工智能加速卡上已经取得了成功应用,但在标准PCIe接口形态的人工智能加速卡上的应用仍然很少,业界迫切需要一个针对标准PCIe接口形态人工智能加速卡的液冷设计指导,来推动冷板式散热技术在人工智能加速卡应用的普及。 3术语 3.1 冷板式液冷coldplateliquidcooling 通过冷板(通常为铜铝等导热金属构成的封闭腔体)将发热器件的热量间接传递给封闭在循环管路 中的冷却液体,通过冷却液体将热量带走的一种实现形式。 3.2 冷板式人工智能加速卡coldplateliquidcoolingartificialintelligenceacceleratorcard 专为人工智能应用设计,通过冷板进行散热的硬件加速器,可用于提升机器学习和深度学习的速度和性能,从而更好地满足人工智能应用的需求。 3.3 冷板式人工智能服务器coldplateliquidcoolingartificialintelligenceserver OCTCBA01—2024 配备了冷板式人工智能加速卡的服务器,可为人工智能应用提供高效能计算处理能力。 3.4 机柜冷却工质供回歧管rackcoolantmanifold 用于向机柜内各液冷冷板分配冷却工质的装置。 3.5 流体快插接头hydraulicquickdisconnect 一种包含插头和插座、且插头和插座都带流体截断功能的快速插拔组件。 4缩略语 下列缩略语适用于本文件。 AI人工智能(ArtificialIntelligence) AIGC生成式人工智能(ArtificialIntelligenceGeneratedContent)ASIC专用集成电路芯片(ApplicationSpecificIntegratedCircuit)CEM板卡机电(CardElectromechanical) CPU中央处理器(CentralProcessingUnit) EMC电磁兼容性(ElectromagneticCompatibility) FPGA现场可编程门阵列(FieldProgrammableGateArray) GPGPU通用图像处理器(General-purposecomputingongraphicsprocessingunits)PCIe高速外围组件互连总线(PeripheralComponentInterconnectExpress) PUE数据中心电能利用率(PowerUsageEffectiveness)RCM机柜冷却工质供回歧管(RackCoolantManifold)VR电压调节器(VoltageRegulator) 5总体描述 5.1冷板式人工智能服务器组成 人工智能服务器组成如图1所示,主要包括通用计算子系统、异构加速子系统、存储子系统、互联子系统、监控子系统、供电子系统、结构及散热子系统、输入输出设备等组成。其中异构加速子系统配备了面向人工智能应用的加速器,例如GPGPU卡、AIASIC卡、FPGA卡等,可为人工智能应用提供高效能计算处理能力。 OCTCBA01—2024 系统总线 管理总线 通用计算子系统 存储子系统 异构计算子系统 网络子系统 结构和散热子系统 监控管理子系统 输入输出设备 供电线 供电子系统 图1人工智能服务器组成 人工智能服务器基于散热子系统实现方式的不同,可分为风冷式人工智能服务器和冷板式人工智能服务器,其中冷板式人工智能服务器是本文研究的重点。 冷板式人工智能服务器CPU和人工智能加速卡应采用冷板进行散热,内存等其它高功耗部件宜采用冷板散热,以进一步提升液冷散热的占比,降低数据中心PUE。设计上需要应减少机箱内的管路,并采用漏液检测机制,以提升服务器的可靠性。 5.2冷板式人工智能加速卡组成 冷板式液冷加速卡由人工智能加速板卡、液冷板、加速卡外壳结构件组成。 冷板覆盖加速卡上的主芯片及其他发热元件(包括但不限于VR、显存等),提高板卡封装狭小空间内人工智能芯片散热效率。加速卡对外提供一对流体快插接头(两个公头),用于连接服务器内部集 /分水结构或RCM。 冷板式人工智能加速卡能够有效避免局部热点,降低服务器系统风扇功耗,降低数据中心整体PUE,是未来绿色数据中心发展的必然趋势。 6技术方案 本技术方案旨在针对标准PCIe接口的人工智能加速卡冷板设计的外观、结构、液冷快插接头、热性能、可靠性方面进行定义,以解决冷板式人工智能加速卡和服务器的适配问题。 6.1设计要求 人工智能加速卡液冷设计要求如下: a)应根据AI芯片的型号尺寸和发热特点及电子信息设备的内部结构进行设计,以获得更好的换热效率,在满足芯片整个使用周期内的壳温要求下,应优化流道设计,减小冷板模块的流阻; b)应保障满足AI芯片插座的载荷及其他结构性要求; c)应考虑配管位置及方向,液体进出口位置,避免与电子信息设备产生干涉; OCTCBA01—2024 d)冷板基板和流道宜采用铜或铝合金材质,一个系统中冷却工质直接接触的部件不应有两种电极电位差较大的金属; e)冷却工质的选用应考虑与二次侧循环回路中所有直接接触的固体表面材质间的相容性; f)漏液检测装置的泄漏量感应基准应不高于0.5ml; g)应符合芯片对散热器重量的要求; h)应考虑冷板的安装及拆卸顺序,满足芯片的操作规范; i)应满足芯片的扣合力技术要求,安装拆除后散热基板底面满足平面度技术要求。 6.2外观要求 人工智能加速卡外观要求如下: a)冷板散热盖板应光滑,不应变形,散热基板底部表面不应有裂纹,划痕,变形、污点等缺陷; b)冷板散热基板散热面形状宜为方形或八边形; c)固定模块表面锐边倒钝,无毛刺,外表面无划痕、脏污,明显色差和花斑、裂缝、变形等缺陷,涂覆层无起泡、堆积、龟裂和脱落现象; d)接口应无毛刺、划痕、变形等缺陷,并与配管顺畅接合; e)配管管内应无脏污,无毛边披锋,无破损。 6.3结构要求 6.3.1加速卡结构尺寸要求 标准PCIe接口的人工智能加速卡挡片宜不开孔,冷板全覆盖加速卡进行全液冷设计。加速卡对外液冷接口需要考虑和服务器系统或RCM的对接方式,有利于加速卡和外界液冷系统对接。板卡尺寸符合PCIeCEM规范,为单槽或者双槽、全高形态,卡长(不含快插接头)宜不大于266.7mm。加速卡的进出水口快插接头可根据应用场景放置于加速卡挡片侧或者加速卡尾端。 6.3.1.1当流体快插接头位于挡片侧,结构尺寸设计要求如图2所示。 ≤15.23 “266.7mm ≥50.00 ≤12.06≥24.00 进水口 出水口 图2结构设计要求(流体快插接头位于挡片侧) OCTCBA01—2024 人工智能加速卡需要插入服务器才能工作,因服务器后窗针对液冷卡有限制,需要进出水口能满足下列要求: a)如图2所示,加速卡流体快插接头位于挡片侧,进水口位于出水口上方。快插接头和冷板连接的地方,需要做凸台,凸台高度与机箱后窗结构相关,宜高度不小于3mm,以方便密封和在服务器侧的插拔; b)加速卡公头位于加速卡上,两个快插接头公头中心点之间距离大于等于24mm,以满足快插接头母头能支持正常的插拔操作,且无结构干涉; c)加速卡快插接头母头最大直径19.5mm,宜小于18mm,以满足两张相邻的加速卡之间快插接头正常的插拔操作; d)进水口快插接头中心点距离挡片最上方距离大于等于50mm,以避免加速卡插入后挡片和板卡结构干涉,确保快加速卡插接头可以从服务器后窗推出; e)快插接头的外径需要小于机箱后窗开口的宽度,最大不超过12.06mm; f)快插接头的左边缘距离挡片右边缘应小于等于15.23mm。 6.3.1.2当进出水快插接头位于尾部时,设计要求如图3所示。 “266.7mm 6.57 “312mm 进水口 ”24.00 出水口 ”38.78 图3结构设计要求(流体快插接头位于加速卡尾部) a)如图3所示,加速卡流体快插接头位于尾部,进水口位于出水口上方;为了节省空间,快插接头和冷板连接的地方不宜有凸台; b)加速卡公头位于加速卡上,两个快插接头公头中心点之间距离大于等于24mm,以满足快插接头母头能支持正常的插拔操作,且无结构干涉; c)加速卡快插接头母头最大直径19.5mm,宜小于18mm,以满足两张相邻的加速卡之间快插接头正常的插拔操作; d)出水口快插接头中心点距离加速卡金手指下边缘大于等于38.78mm; e)为了便于服务器机箱设计,流体快拆头位于尾部时,宜加速卡本体+快插接头静