行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

基于标准PCIe接口的人工智能加速卡液冷设计白皮书

信息技术 2024-01-15 - 开放计算标准工作委员会 EMJENNNY

基于标准PCIe接口的人工智能加速卡液冷设计的白皮书概述了人工智能加速卡的液冷设计原则和具体要求，旨在简化冷板式人工智能加速卡与服务器的适配过程，降低整体成本并提升能效。

主要内容概览：

1. 概述：

背景：随着AI大模型的发展，人工智能加速卡的功耗显著提升，液冷技术成为解决高功耗散热问题的关键。
目标：通过制定标准PCIe接口的液冷设计指导，简化冷板式人工智能加速卡和服务器的集成，加速液冷技术在人工智能领域的应用。

2. 发展趋势：

AI应用需求：AI模型的复杂性和规模增长，驱动了对更高算力的需求，进而推动了人工智能加速卡的性能升级和功耗提升。
液冷技术：液冷技术因其高效散热能力，被广泛应用于服务器和人工智能加速卡中，特别是冷板式液冷，因其高效、节能的特点成为主流方案。

3. 术语定义：

冷板式液冷：通过冷板将发热器件的热量间接传递给冷却液体，然后通过液体带走热量。
冷板式人工智能加速卡：专为AI应用设计，通过冷板进行散热的硬件加速器。

4. 设计要求：

外观与结构：优化冷板设计，确保与AI芯片兼容，同时考虑配管位置、方向以及防止与电子设备干涉。
热性能：设定热设计功耗、进水温度、出水温度、温升、压降和流速等参数。
可靠性：包括漏液检测、环境适应性、压力和电磁兼容性等要求。

5. 技术方案：

冷板设计：采用铜或铝合金材质，优化流道设计，减少阻力。
流体快插接头：选择兼容性强、尺寸合理的接头，确保连接稳定且无结构干涉。
热性能参数：定义关键的热性能指标，确保高效散热。
润湿材料：选择与冷却液兼容的材料，考虑环保和成本因素。

6. 结论：

通过统一的标准设计指导，可降低冷板式人工智能加速卡与服务器的集成难度，提升能效和可靠性，促进绿色数据中心的建设和应用，推动液冷技术在AI领域的广泛应用。

白皮书（2024年1月）版权保护文件版权所有归属于该文件的发布机构，除非有其他规定，否则未经许可，此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用，包括电子版，影印件，或发布在互联网及内部网络等。使用许可可于发布机构获取。目次前言..........................................................................................................................................................III1概述................................................................................................................................................................12发展趋势........................................................................................................................................................13术语................................................................................................................................................................14缩略语............................................................................................................................................................25总体描述........................................................................................................................................................25.1冷板式人工智能服务器组成.................................................................................................................25.2冷板式人工智能加速卡组成.................................................................................................................36技术方案........................................................................................................................................................36.1设计要求.................................................................................................................................................36.2外观要求..................................................................................................................................................46.3结构要求..................................................................................................................................................46.4热性能要求..............................................................................................................................................66.5可靠性要求..............................................................................................................................................7参考文献......................................................................................................................................................9 前言本文件由中移动信息技术有限公司提出。本文件由开放计算标准工作委员会归口。本文件起草单位：中移动信息技术有限公司，浪潮电子信息产业股份有限公司，上海壁仞智能科技有限公司，中科寒武纪科技股份有限公司，上海燧原科技有限公司，宁畅信息技术有限公司，中科可控信息产业有限公司，新华三技术有限公司，史陶比尔（杭州）精密机械电子有限公司，中航光电科技股份有限公司，京东云计算有限公司，百度在线网络技术（北京）有限公司。本文件主要起草人：李圣义，杨洋，李金波，刘广志，罗竣峰，李明杰，周立志，邸贺亮，张政，黄乾明，王辉，朱重兴，孙鹏，李壮，谢泽邦，王周杰，廖嵬，聂超，高亦廷，梅敬青，王思善，王海岩，韩学磊，李伟祖，王伟，李鹏，谢地，董永申，李进宝，王贵林，蔡岳霖，金跃红，郑建武，高从文，刘玲，董少杰，郗卓宁，傅浩杰。基于标准PCIe接口的人工智能加速卡液冷设计指南 1概述冷板式人工智能加速卡在结构设计、流体快插接头、热性能设计等方面无统一设计要求，服务器针对不同厂商的冷板式人工智能加速卡需要进行结构和散热适配，耗费大量人力、物力。本技术白皮书主要制定标准PCIe接口形态的冷板式人工智能加速卡在结构设计、冷板设计、流体快插接头选型、热性能设计、可靠性设计方面的要求，用于指导冷板式人工智能加速卡的设计。通过本白皮书提供的设计指导，降低服务器和冷板式人工智能加速卡之间的适配难度，降低适配的成本和人力投入。同时降低部署和运维难度，方便终端客户根据业务场景灵活选择相应产品，加速液冷式人工智能加速卡和服务器产品上市。此外，通过统一的设计指导，在冷板本体、流体快插接头等关键组件上产生规模化效益，获取低成本液冷解决方案，推动冷板式液冷技术的普及。 2发展趋势以AIGC为代表的人工智能大模型的发展，带来了算力需求的指数式提升。AI芯片需要通过提升工作频率或增加运算单元来获得更强的算力，带来人工智能加速卡功耗的不断提升。当前人工智能加速卡单卡功耗已达到350W至600W量级，带来服务器散热功耗的显著提升，在给服务器散热设计带来挑战的同时，也给建设绿色数据中心带来了很大的挑战。液冷技术成为解决人工智能服务器高功耗散热问题、降低数据中心PUE的关键，其中冷板式液冷技术是当前解决人工智能加速卡高功耗问题的主流方案。目前标准PCIe接口形态的人工智能加速卡仍然是业界主流，国内外部分厂商已经推出了相应的冷板式人工智能加速卡，但均是按照自身产品形态特征进行设计，未考虑同行业其他厂商情况，不能作为标准化设计。同时，虽然冷板式液冷散热技术在CPU、内存、扣板式人工智能加速卡上已经取得了成功应用，但在标准PCIe接口形态的人工智能加速卡上的应用仍然很少，业界迫切需要一个针对标准PCIe接口形态人工智能加速卡的液冷设计指导，来推动冷板式散热技术在人工智能加速卡应用的普及。 3术语 3.1 冷板式液冷cold plate liquid cooling 通过冷板（通常为铜铝等导热金属构成的封闭腔体）将发热器件的热量间接传递给封闭在循环管路中的冷却液体，通过冷却液体将热量带走的一种实现形式。 3.2 冷板式人工智能加速卡cold plate liquid cooling artificial intelligence accelerator card 专为人工智能应用设计，通过冷板进行散热的硬件加速器,可用于提升机器学习和深度学习的速度和性能,从而更好地满足人工智能应用的需求。 3.3 冷板式人工智能服务器cold plate liquid cooling artificial intelligence server OCTC BA01—2024 配备了冷板式人工智能加速卡的服务器，可为人工智能应用提供高效能计算处理能力。机柜冷却工质供回歧管rack coolant manifold 用于向机柜内各液冷冷板分配冷却工质的装置。 3.5流体快插接头hydraulic quick disconnect一种包含插头和插座、且插头和插座都带流体截断功能的快速插拔组件。 4缩略语下列缩略语适用于本文件。 AI人工智能（Artificial Intelligence）AIGC生成式人工智能（Artificial Intelligence Generated Content）ASIC专用集成电路芯片（Application Specific Integrated Circuit）CEM板卡机电（Card Electromechanical）CPU中央处理器（Central Processing Unit）EMC电磁兼容性（Electromagnetic Compatibility）FPGA现场可编程门阵列（Field Programmable Gate Array）GPGPU通用图像处理器（General-purpose computing on graphics processing units）PCIe高速外围组件互连总线（Peripheral Component Interconnect Express）PUE数据中心电能利用率（Power Usage Effectiveness）RCM机柜冷却工质供回歧管（Rack Coolant Manifold）VR电压调节器（Voltage Regulator） 5总体描述 5.1冷板式人工智能服务器组成人工智能服务器组成如图1所示，主要包括通用计算子系统、异构加速子系统、存储子系统、互联子系统、监控子系统、供电子系统、结构及散热子系统、输入输出设备等组成。其中异构加速子系统配备了面向人工智能应用的加速器，例如GPGPU卡、AI ASIC卡、FPGA卡等，可为人工智能应用提供高效能计算处理能力。人工智能服务器基于散热子系统实现方式的不同，可分为风冷式人工智能服务器和冷板式人工智能服务器，其中冷板式人工智能服务器是本文研究的重点。冷板式人工智能服务器CPU和人工智能加速卡应采用冷板进行散热，内存等其它高功耗部件宜采用冷板散热，以进一步提升液冷散热的占比，降低数据中心PUE。设计上需要应减少

点击免费查看完整报告

基于标准PCIe接口的人工智能加速卡液冷设计白皮书

主要内容概览：

1. 概述：

2. 发展趋势：

3. 术语定义：

4. 设计要求：

5. 技术方案：

6. 结论：

你可能感兴趣

IUCN基于自然的解决方案全球标准使用指南-基于自然的解决方案的审核、设计和推广框架（2020年）

2023人工智能带来的颠覆：数据中心设计的挑战及相关指南白皮书

浸没式液冷电子装联工艺设计白皮书

冷板液冷服务器设计白皮书

绿色数据中心创新实践-冷板液冷系统设计参考白皮书

人工智能主题周报：运营商发布液冷白皮书，人工智能基础设施持续升级

【机构龙虎榜解读】人工智能+教育+华为鸿蒙，阿里云授权培训认证合作伙伴，推出“纯血”原生鸿蒙开发学科，基于HarmonyOS NEXT版本最新技术及能力设计，涵盖千余个相关知识点，这家公司获净买入

人工智能安全标准白皮书

业绩符合预期，发布符合谷歌标准的液冷产品

【电报解读】脱胎于华为的国产算力巨头超聚变完成IPO上市辅导，公开资料显示其已连续两年蝉联中国标准液冷服务器市场份额第一的位置，这家公司参股企业已成为超聚变注册经销商-20260426