人工智能带来的颠覆:数据中心设计的挑战及相关指南 第110号白皮书 版本1.1 能源管理研究中心 作者:VictorAvelar PatrickDonovan PaulLinWendyTorell MariaA.TorresArango 摘要 从大型训练集群到小型边缘推理服务器,人工智能(AI)在数据中心工作负载中所占的比例日益增加。这意味着需要向更高机柜功率密度进行转变。人工智能初创企业、一般企业、托管服务提供商和大型互联网企业现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。本白皮书探讨了人工智能工作负载的相关属性和趋势,并介绍了由此带来的数据中心挑战,并针对每个物理基础设施类别(包括供配电、制冷、机柜和软件管理)提供了应对此类挑战的指南。 为本白皮书评分 简介 表1 数据中心人工智能负载概览。 近年来,我们目睹了人工智能的飞速发展,它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能(如ChatGPT)的出现更是推动了这一发展。预测算法正在对医疗1、金融、制造2、交通3和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展,致使非常高的机柜功率密度的出现。与此同时,市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心以支持这一需求带来了新的挑战。 人工智能增长预测 我们估计人工智能目前的电力需求为4.3GW,并预测到2028年它将以26%-36%的年 施耐德电气的估算 2023 2028 数据中心总负载 54GW 90GW AI工作负载 4.3GW 13.5-20GW AI工作占总负载的百分比 8% 15-20% 训练与推理AI工作负载对比 20%训练,80%推理 15%训练,85%推理 集中与边缘AI工作负载对比 95%集中,5%边缘 50%集中,50%边缘 复合增长率(CAGR)进行增长,最终达到13.5GW至20GW。这一增长速度是数据中心总电力需求年复合增长率(11%)的两到三倍,详见表1。其中一项重要的洞察是,随着更多经过训练的新模型开始进入生产阶段,推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素,包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。 本白皮书介绍了人工智能的重要属性和趋势,这些属性和趋势对数据中心不同物理基础设施类别带来挑战,包括供配电、制冷、机柜和软件管理等。我们还提供了如何应对这些挑战的指南5。最后,我们对数据中心的未来设计方向提出了一些前瞻性看法。本白皮书并不是关于将人工智能应用在物理基础设施系统。虽然下一代物理基础设施系统最终可能利用更多的人工智能技术,但本文专注于如何利用当前可获得的系统来支持人工智能负载。 1FedericoCabitza等人,可靠性、可用性、可维护性和安全性(rams)、猎犬和白盒:研究医疗诊断中的人机协作协议,《人工智能在医学中的应用》,2023年,第138卷。 2JongsukLee等人,汽车行业智能工厂的关键赋能技术:现状与应用,《国际精密工程与制造杂志》,2023年,第1卷。 3ChristianBirchler等人,自动驾驶汽车软件中基于仿真的经济性测试选择,《计算机编程科学》,2023年,第 226卷。 4定义参见“人工智能属性与趋势”部分。 5这些指南也适用于其他高密度的工作负载,如高性能计算(HPC)。与HPC应用的主要区别在于,HPC往往是会一次安装到位,可能采用定制的IT、供配电、制冷和/或机柜解决方案。相较之下,人工智能应用存在不断扩展的需求,需要在标准设备(IT设备和辅助基础设施)加以扩展。 人工智能属性与趋势 人工智能以下的四个属性和趋势是导致物理基础设施面临挑战的根本原因: 人工智能工作负载 GPU的热设计功耗(TDP) 网络延迟 人工智能集群规模 人工智能工作负载 AI工作负载一般分为两类:训练和推理。 训练工作负载用于训练人工智能模型,如大语言模型(LLM)。我们在本文中提到的训练工作负载类型属于大规模分布式训练(大量机器并行运行6),因为它对当前的数据中心提出了挑战。这些工作负载需要将海量数据馈送至配有处理器(即加速器)的专用服务器。图形处理器(GPU)是加速器的其中一种7。加速器在执行并行处理任务 (如LLM训练过程中的并行处理任务)时效率极高。除服务器外,训练还需要数据存储器和将之连接在一起的网络。这些元素可组合成一个机柜阵列,称为“人工智能集群”。它实质上是将集群当成一台计算机来训练一个模型。精心设计的人工智能集群中的加速器在大部分训练时间(从数小时到数月不等)内都以接近100%的利用率运行。训练集群的平均耗电量几乎等于其峰值耗电量(峰均比≈1)。 模型越大,需要的加速器越多。大型人工智能集群的机柜功率密度从30kW到100kW不等,具体取决于GPU的型号和数量。集群的规模从几个机柜到数百个机柜不等,通常以所用加速器的数量来加以描述。例如,22,000H100GPU集群使用约700个机 柜,需要约31MW的电力,平均机柜功率密度为44kW。请注意,此电力不包括制冷等物理基础设施需求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断点继续运行。 推理是指将先前训练好的模型投入生产,以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间需要权衡。如果我是一名科学家,我可能愿意支付更高的费用,在两次查询之间等待更长的时间,以获得高准确度的输出。而如果我是一个寻找写作灵感的撰稿人,我会想要一个能即时回答问题的免费聊天机器人。简而言之,业务需求决定推理模型的大小,但很少会使用完整的原始训练模型。相反,我们会部署一个轻量级版本的模型,以在可接受的准确率损失下缩短推理时间。推理工作负载倾向于使用加速器来处理大模型,并且还可能严重依赖CPU,具体取决于应用。自动驾驶技术、推荐型引擎和ChatGPT等应用可能都有不同的IT堆栈,并根据各自要求进行了“调优”。根据模型的大小,每个实例的硬件要求可能从一台边缘设备 (如智能手机)到几个服务器机柜不等。也就是说,机柜密度可以从几百瓦到10千瓦 6模型中的大量参数和token要求将处理工作负载的任务分散到多个GPU上,以缩短训练模型所需时间。 7其他加速器的例子还有张量处理单元(TPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)。 以上。与训练不同,推理服务器的数量会随着用户/查询数量的增加而增加。事实上,一款流行的模型(如ChatGPT)推理所需的机柜数量很可能是训练所需的机柜数量的数倍,因为它们现在每天的查询量高达数百万次。最后,推理工作负载通常为业务关键型负载,需要具备韧性(如UPS和/或地理冗余)。 表2 各代NvidiaGPU的TDP和性能 GPU的热设计功耗(TDP) 虽然训练或推理离不开存储器和网络,但现在我们重点关注GPU,因为它约占人工智能集群功耗的一半8。每一代GPU的功耗均呈上升趋势。芯片的功耗(以瓦特为单位)通常用TDP表示。虽然我们在此只讨论GPU,但TDP不断增加的总体趋势也发 生在其他加速器上。每一代GPU的TDP都在增加,这是GPU为增加运算量而设计的结果,目的是在更短的时间内以更低的成本训练模型并进行推理。表2比较了三代NvidiaGPU在TDP和性能方面的差异9。 GPU TDP(W)10 TFLOPS11 (训练) 通过V100 实现的性能 TOPS12 (推理) 通过V100 实现的性能 V100SXM232GB 300 15.7 1X 62 1X A100SXM80GB 400 156 9.9X 624 10.1X H100SXM80GB 700 500 31.8X 2,000 32.3X 网络延迟 在分布式训练中,每个GPU都必须有一个网口来建立计算网络结构。例如,如果一台人工智能服务器有八个GPU,那么该服务器需要八个计算网口。这种计算网络结构支持大型人工智能集群中的所有GPU以高速(如800GB/s)协同通信。随着GPU处理速度的提高,网络速度也必须提高,以减少训练模型的时间和成本。例如,使用GPU以900GB/s的速度处理内存数据,而使用100GB/s的计算结构,这样会降低GPU的平均利用率,因为它需要等待网络来协调GPU的下一步工作。这就好比买了一辆500马力的自动驾驶汽车,而车载的快速传感器阵列却通过缓慢的网络进行通信;汽车的速度受到网络速度的限制,因此无法充分利用发动机的动力。 高速网线价格不菲。例如,InfiniBand光纤的价格是铜缆的10倍。因此,数据科学家会与IT团队合作,尝试使用铜缆用于人工智能训练集群,但必须确保网络布线距离在 8400W时,NVIDIAV100GPU功耗在该集群中占比55%,当700W时,H100功耗占该集群功耗的49%。 9虽然GPU是这些性能提升的关键,但其他系统的改进也是为了充分利用GPU,如增加内存和GPU之间的通信。 10V110、A100、H100 11TFLOPS-每秒万亿次浮点运算-以张量浮点32(TF32)精度度量矩阵乘法吞吐量,通常用于训练工作负载。 V100、A100、H100 12TOPS-每秒万亿次运算-以8位整数(INT8)精度度量整数数学吞吐量,一般用于推理工作负载。V100、A100、H100 可接受的延迟范围内。增加每个机柜的端口可以缩短布线距离,这样可以增加每个机柜的GPU数量,但是机柜功率密度将被提高。最终,机柜集群将庞大到以至于延迟迫使设计人员改用光纤,以至于成本增加。 请注意,推理工作负载的GPU并行化难度较大,因此这种机柜功率密度关系通常不适用于推理13。 人工智能集群规模 如上所述,训练大模型可能需要数千个GPU协同工作。鉴于GPU约占集群功耗的一半,GPU数量成为估算数据中心功耗的一个有用替代指标。图1估算了人工智能训练集群中GPU数量与数据中心功耗的函数关系,涉及三代GPU(见表2)。为了更好地理解这些值,我们以一座40,000kW发电厂为例,这些值相当于该发电厂能够为大约 3.1万户美国普通家庭供电。请注意,这三条趋势线并不等同于相同的生产力。也就是说,虽然使用H100GPU的数据中心的功耗超过使用V100GPU的数据中心,但H100数据中心的生产力提升远远超过其功耗增加。 图1 数据中心功耗估计值与GPU 数量的函数关系 数据中心PUE=1.3 请注意,本图表未显示生产力提升。 45,000 kWckoWn耗su电mp量tion 40,000 35,000 30,000 25,000 20,000 15,000 10,000 5,000 0 05,00010,00015,00020,00025,000 GPUquantity GPU数量 V100A100H100 上述四个属性和趋势对机柜功率密度有着直接的影响。目前,大多数数据中心可支持大约10至20kW的峰值机柜功率密度14。不过,在人工智能集群中部署数十或数百个大于20kW的机柜,将给数据中心运营商带来物理基础设施方面的挑战。这些挑战可能只与供配电有关,也可能涉及两个甚至更多的物理基础设施类别。这些挑战并非不可克服,但运营商应在充分了解相关要求的基础上进行建设和运营,不仅是IT方面的要 求,还有物理基础设施方面的要求,尤其是对现有数据中心设施的要求。设施越陈旧,支持人工智能训练工作负载的挑战就越大。下文的主要章节将针对每个物理基础设施类别更详细地介绍这些挑战,并为克服这些挑战提供了指南。请注意,其中的一些推荐设计方法仅适用于新建数据中心,而其他方法则适用于新建和已有(改造)建筑。 供配电 人工智能工作负载给供配电链路共带来六大挑战,包括开关柜、配电回路和机架式配电单元(rPDU)。 13利用软硬件并行性来加快深度学习推理,2020年4月 14UptimeInstit