您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:算力电力协同:思路与探索白皮书(2025 年) - 发现报告

算力电力协同:思路与探索白皮书(2025 年)

综合2025-02-20-清华大学W***
算力电力协同:思路与探索白皮书(2025 年)

算力电力协同:思路与探索白皮书 (2025年) 清华大学 北京火山引擎科技有限公司 2025年01月 报告研究团队 清华大学:郭庆来、陈敏、王奕 北京火山引擎科技有限公司:井汤博、潘宇、翟思成、李子豪 目录 前言1 一、算力电力为什么要协同?2 (一)伴随AI的迅猛发展,算力中心负荷持续攀升2 (二)算力中心负荷具有特殊性,对电力系统是挑战,也是机遇5 (三)挖掘算力中心灵活性,优化算力中心供能结构与用能成本6 二、算电协同,具体协同什么?8 (一)基本供用能结构中的算电耦合点,是算电协同的物理基础8 (二)相关主体的不同利益诉求,是算电协同的核心驱动力11 三、如何协同?13 (一)列头柜层面:预测算力需求及算力功耗,并挖掘其灵活性13 (二)算力中心层面:从业务逻辑弱耦合到强耦合,发掘灵活性14 (三)局部电网层面:高比例可再生能源局部电网本地自治20 (四)大规模“算力网电力网”层面:跨区优化调度21 四、结语22 前言 “实施一批算力与电力协同项目”作为代表性方向列入我国《加快构建新型电力系统行动方案(20242027年)》。本报告针对算力负荷区别于其他常规负荷的特征,按照“为什么要做算力电力协同”、“协同什么”、“如何协同”的顺序展开,介绍了我们在算力电力协同方向的思路与探索,目标是充分挖掘算力中心与算力系统中蕴含的灵活性,优化算力负荷用能成本与供能技术,并提升新能源消纳能力,为加快构建新型电力系统提供支撑。 编写组 2025年1月 一、算力电力为什么要协同? (一)伴随AI的迅猛发展,算力中心负荷持续攀升 1AI领域的“ScalingLaw”,带来能源消耗指数级增加 在人工智能(artificialintelligence,AI)领域,““ScalingLaw”揭示了随着模型规模、计算能力和数据量的增加,AI系统的性能会指数级提升。然而,这一法则也伴随着能源消耗的指数级上升。 原图来源:YuzhuoLiMariamMugheesYizeChenYunweiRyanLi“TheUnseenAIDisruptionsforPowerGridsLLMInducedTransients”2024 图1不同大型语言模型训练过程中,能耗与模型参数数量的关系 2全球视角:AI应用快速发展,带来全球算力中心耗电量大幅增长 伴随AI应用快速发展,全球用于AI的IT设备用电需求激增。根据花旗集团研究部门CitiResearch的预测,从2023年到2030年,服务于AI的IT设备用电需求年均增长率将达到43,远高于服务于其他业务的IT设备用电需求的年均增长率8。预计到2030年,服务于AI的IT设备用电需求将达到52GW,占全球IT设备用电需求的50以上。 与之对应,全球算力中心用电量也大幅增长。根据国际能源署数据,从2022 年到2026年,全球算力中心和加密货币的总用电量将翻一番,增加160590TWh,相当于一个瑞典或德国的年总用电量。与AI需求爆发前,即2022年前的过去10年相比,其总用电量增长幅度仅为3389。 原图来源:datacenterHawkDCHFactSetCogentCommunicationsCitiResearch;中国信息通信研究院、内蒙古和林格尔新区,中国绿色算力发展研究报告(2024年) 图2全球IT设备的用电需求趋势(单位:GW) 原图来源:IEA2024Electricity2024IEAParisLicenceCCBY40;中国信息通信研究院、内蒙古和林格尔新区,中国绿色算力发展研究报告(2024年) 图3全球算力中心和加密货币的用电量趋势(单位:TWh) 3国外视角:国外已有算力中心电力供应短缺的报道 在2024年,AI领域的能源挑战成为了全球关注的焦点,以下是三则具有代表性的国外报道概述: (1)OpenAI首席执行官承认AI能源危机:2024年2月,《Nature》杂志报道1,OpenAI公司的首席执行官在2024年1月公开承认“AI行业正在走向能源危机”,并警告“下一波生成型AI系统消耗的电力将远远超出预期,能源系统将难以应对”。 (2)世邦魏理仕发布《2024年全球数据中心趋势》:2024年6月,世邦魏理仕公司发布的《2024年全球数据中心趋势》指出2,全球数据中心市场因电力供应短缺而受到显著制约,北美、欧洲、拉丁美洲和亚太地区的运营商都将获取电力作为首要任务。 (3)孟菲斯超级集群被迫由天然气发电机供电:2024年7月,根据IDC圈报道显示3“,由于当地无法提供充足的电力供应,马斯克被迫为孟菲斯超级集群 (号称是“世界上最强大的AI训练集群”)提供了14台天然气发电机。这些发电机提供最高35MW,当地电力系统提供8MW。 4国内视角:加快发展AI战略下,我国算力中心耗电量持续攀升 在加快发展AI的国家战略下,我国算力中心耗电量持续攀升。根据中国信通院《中国绿色算力发展研究报告“(2024年)》和《中国算力中心服务商分析报告(2024年)》中的数据,截至2023年底,全国算力总规模达230EFLOPS, 位居全球第二,在用算力中心机架总规模超过810万标准机架,在用机架数量三年复合增长率约30,总耗电量达到1500亿kWh,占全社会用电16。 其中,智能算力已经超过基础算力成为我国算力规模增长的主要驱动力。截 1来源:CRAWFORDKGenerativeAIisguzzlingwaterandenergyJNature2024626693 2来源:httpswwwcbrecominsightsreportsglobaldatacentertrends2024 3来源:httpsmpweixinqqcomsqz17jgAlVpdfkQh0Qk7iMA 至2023年6月底,我国智能算力规模占整体算力规模的比例提高到254,同 比增长45,比算力规模整体增速高15个百分点。预计到2025年,智能算力占比将达到35。 (二)算力中心负荷具有特殊性,对电力系统是挑战,也是机遇 1挑战:新型电力系统仍在建设,如何用绿电支撑算力发展? 算力中心负荷具有功率密度高、周期性强等与钢铁等传统工业负荷相似的特 征,但又具有可靠性要求高、绿色性要求高、以及潜在的波动性强等显著不同的 特征。然而新型电力系统仍在建设,如何用绿电支撑算力发展,成为电力侧面临的重要挑战。 以下是算力中心负荷功率密度高、周期性强、可靠性要求高、绿色性要求高、以及潜在的波动性强的案例说明: (1)功率密度高:2024年3月,AI初创企业OpenPipe的联合创始人KyleCorbitt在社交平台上透露4,与微软工程师的交流中提到,在GPT6训练集群项目中,若在单一州部署超过10万个H100GPU(约150兆瓦),可能引发电网崩溃的风险。 (2)周期性强:2024年7月,国网冀北电力有限公司在《中能传媒研究院》公众号发表文章指出5“,算力中心的用电负荷具有明显的节性性周期波动,与地区夏节用电高峰时段相吻合。以张家口算力中心集群为例,夏节和冬节的负荷峰谷差分别达到17和7。 (3)可靠性要求高:2023年12月,《“券日报报》报道了中国电信京冀冀智算中心的情况6,该中心向客户承诺99999的电力不间断性,是全国范围内供电保障最高标准。 4来源:httpsnewsqqcomraina20240402A03S0T00 5来源:httpsmpweixinqqcomsTXrceWnFD99GhPShmgtoA 6来源:httpsbaijiahaobaiducomsid1785217550585584509wfrspiderforpc (4)绿色性要求高:2024年7月,国家发改委等部门联合印发的《数据中心绿色低碳发展专项行动计划》中明确提出,到2025年底,要求国家枢纽性点新建数据中心绿电占比超过80。 (5)潜在的波动性强:2024年5月,《硅谷101》性目对微软的采访报道 中提到7,AI算力中心(“ 又称智算中心)的用电特征存在显著的波动性在训 练或者推理时会出现非常大的摆幅。比如:它的用电可能瞬间从满载降至10,随后又迅速回升至满载。 2机遇:协同算力中心时空灵活性,助力新型电力系统建设 同时,算力中心负荷具有时空灵活性,且算力中心运营商具有成本敏感性、 算力中心增长呈现阶段性发展特征,意味着可以通过激励措施前瞻性地引导算力 中心的规划与运行。因此,可以通过充分挖掘算力中心与算力系统中蕴含的负荷灵活性,以算力电力协同规划与运行的方式,提升新能源消纳能力,为加快构建新型电力系统提供支撑。 以下是算力中心负荷时空灵活性的具体说明: (1)一方面,算力中心供能结构具有较高的冗余度,蕴含以业务逻辑为核心的体量可观的新型负荷灵活性。 (2)另一方面,区别于空调等传统柔性负荷,可以通过在算力网中转移算力需求实现电力的转移,是目前已知的唯一一种可以不依赖电网而实现电力负荷瞬时转移的新型负荷。其中,主要对象涉及:算力需求、算力中心、局部算力网、局部电力网、大算力网、以及大电力网。 (三)挖掘算力中心灵活性,优化算力中心供能结构与用能成本 在算力中心基础设施(不包含算力)建设和运营成本中,电力占比显著。根据IBM公司的数据8,在算力中心基础设施建设成本中,电力设备占比超过50, 7来源:httpsbaijiahaobaiducomsid1798646947218536117wfrspiderforpc 8来源:httpsweibocomttarticlepshowid2309404509527037837385 在算力中心基础设施运营成本中,电力设备的固定资产折旧、运行维护和人工、以及电费占比28以上。 因此,充分挖掘算力中心与算力系统中蕴含的负荷灵活性,一方面,能够通过优化算力中心内部基本供能结构,实现高效低碳用能,并降低综合用能成本;另一方面,还可以通过为电网提供负荷侧灵活性,进一步降低算力的用能成本。 二、算电协同,具体协同什么? (一)基本供用能结构中的算电耦合点,是算电协同的物理基础 算力中心及算力系统的基本供用能结构(以A级算力中心某常用配电架构为例)如图4所示。具体来说,一方面,在某算力中心园区,基本供能结构采用以列头柜为核心的串联结构,主要包括以下几个部分:A列头柜(内置IT设备)、B制冷设备、C通信电源侧蓄电池、D备电系统、E园区内常见的辅助能源设备,以及F外电。另一方面,在算力系统中,某算力中心是局部算力网中的性点之一,算力需求在互联的算力网中流转。同时,某算力中心园区是局部电力网的性点之一,电力流在G电力网中流转。算力需求的流转带来电力负荷的迁移。 各部分原图来源: 算力需求:httpscaifuhaoeastmoneycomnews20230911191023473948700 算力网:国家发展改革委高技术司、人民报报,一图读懂“东数西算”工程解读 A:httpstechhexuncom20240129211784001htmlB:httpszhuanlanzhihucomp369180735 C:httpwww360doccomcontent2004081069420018904580681shtmlgooglevignetteD:httpswwwsohucoma556728209100129574 E:httpschunenginencomhtmlchunengy1309shtmlF:httpswwwsohucoma151814887470046 G:中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要 图4算力中心及算力系统的基本供用能结构(其中,以A级算力中心某常用配电架构为例) 以下具体阐述算力中心园区基本供用能结构中各部分的功能、配电特征、以及算电耦合点。 A列头柜(内置IT设备):在功能层面,算力需求由IT设备处理,IT设备放置于列头柜内。因此,列头柜的功能是为IT设备直接供电。在配电特征层面