白皮书 数据中心算力-电力灵活性协同研究 智能管控计算负载,灵活调节电力负荷 执行概要 适应新能源发电比例不断提高,以及用户侧电力需求响应逐步常态化的趋势,腾讯携手英特尔、中国电信,针对通过数据中心算力-电力协同进行需求响应进行了初步可行性研究。本研究提出通过判断计算任务在服务器上的算力-电力特征,在不影响业务运行的情况下,降低电力部件的实时冗余性、调整业务负载的并行规模和时间分布。研究对业务-算力-电力三者协同提供电力灵活性的多种策略进行了实际测试,在服务器集群运行不同IT任务类型时,通过切换空载服务器功耗状态、利用服务器子部件资源消耗不均衡性、平移和伸缩实时性不敏感任务,改变负荷大小和时间分布,可达到节能降耗、对电网负荷削峰填谷等目的,可适用于各种规模、形式的数据中心、机房、集群和服务器。本研究表明,三种策略均 目录 执行概要1 背景1 数智技术助力需求侧响应走向节能减碳的前台2 探索和推进数据中心电力灵活性实践2 系统化构建数据中心算力-电力灵活性方案4 灵活性策略设计4 利用空载服务器在不同功耗状态之间切换4 利用计算任务在服务器硬件资源消耗上的不均衡性4 利用平移和伸缩实时性不敏感的计算任务5 利用网络跨数据中心转移任务5 灵活性策略结果5 利用空载服务器在不同功耗状态之间切换的策略测试5 利用计算任务在服务器子部件消耗不均衡性的策略测试6 硬盘密集型任务6 内存密集型任务7 CPU密集型任务8 利用平移和伸缩实时性不敏感的计算任务策略测试8 子任务独立型并行计算9 子任务耦合型并行计算9 对下一步研究的启示10 未来展望11 鸣谢11 附录12 可根据外部指令实现秒级对服务器功率的快速控制,为数据中心参与需求侧分钟级、秒级响应,或参与电力现货市场和电力辅助服务市场,提供了可行性依据和技术支持,显示数据中心的电力灵活性响应具备巨大的潜力以及广阔的应用前景。未来,推动其由研究走向数据中心算力-电力需求响应的成熟应用,既需要对更多部件、更复杂的部署情况进行深入实验,又需要形成自动化系统,联动业务-算力-电力三者的对应信息,同时更需要产业伙伴广泛协同,采用一套标准的测试方法标定业务负载在机型上的电力特性数据,开源共享,从而充分挖掘和发挥出数据中心算力侧的电力灵活性,助力构建新型电力系统。 背景 环境挑战日益严峻,其影响正受到全球高度关注。2022年4月4日,联合国政府间气候变化专门委员会(IPCC)正式发布了第六次评估报告(AR6),并在第三工作组报告《气候变化2022:减缓气候变化》中警示1,在2100年前将全球升温控制在1.5℃以内(且不导致“过冲”)的机会窗口短暂且正在迅速关闭,全球减缓气候变化和适应的行动刻不容缓,任何延迟都将关上机会之窗,让人类的未来变得不再具有可持续性。同期,在中国气象局2022年8月3日发布的《中国气候变化蓝皮书(2022)》则显示2,2021年中国地表平均气温较常年值偏高 0.97℃,达1901年以来的最高值,升温速率高于同期全球平均水平,是全球气候变化的敏感区。 为有效应对严峻的环境挑战与经济社会高质量发展的内在压力,落实联合国2030年可持续发展议程,中国积极实施生态文明国家战略,发布“碳达峰”和“碳中和”目标,加快降低碳排放步伐,引导绿色技术创新。同时,持续推进产业结构和能源结构调整,努力兼顾经济发展和绿色转型,促进可持续发展。 在中国,电力行业碳排放量占全国碳排放总量的40%以上,同时用电增长作为刚性需求, 是支撑经济转型升级和居民生活水平提高的重要保障,这使得电力成为未来10年能源增长的主体3,且在社会整体用能电气化的背景下新增需求巨大。电力行业的碳排放峰值及达峰速度直接决定着2030年前全国碳排放达峰目标能否实现。也正是因此,电力行业的减排成为中国整体实现“双碳”目标的重要抓手,也让需求侧(用户侧)的电力响应逐渐走向前台,并在数智技术的助力下,对节能降碳发挥日益重要的作用。 数智技术助力需求侧响应走向节能减碳的前台 大力发展风电、太阳能等可再生能源,支撑火电从基荷能源往灵活性能源的转变,驱动行业转型,是支持全社会加速脱碳的一个关键环节。但是,这类可再生能源供应存在明显的间歇性、随机性以及不可控特性,这给电网的长期发电容量和短期实时平衡都带来了巨大挑战。因此,调动用户侧灵活地深度参与系统平衡,对于以新能源为主体的新型电力系统建设具有重要支撑作用。 2021年底,中国国家能源局修订发布《电力并网运行管理规定》(国能发监管规〔2021〕60号)4、《电力辅助服务管理办法》(国能发监管规〔2021〕61号)5,将电力系统参与主体由原来的传统发电厂单侧扩展为“源荷”两侧,特别是加入了“风光、新型储能、负荷侧可调节负荷”,同时也提出“谁提供,谁获利;谁受益、谁承担”原则,电力辅助服务费用由包括发电企业、电力用户在内的所有并网主体共同分摊。这不仅让用户侧的电力精准预测成为用能企业的责任,也激励着用能企业从单纯用电方转向电力灵活性的提供方,积极挖掘自身用电灵活调节能力。 然而,用户侧负载与人们生活、企业生产等直接相关且高度分散的特性,决定了对其控制需要从生产到电力的整体协同。同时,需求响应可调节资源类型复杂,数据统计分析工作量大,传统手段难以应对。大数据、人工智能、物联网等技术的应用与融合,给精细化进行用户负荷管理与响应带来了新契机,使得对需求侧负载进行有的放矢地实时调节成为可能,其在数据中心等领域的应用探索和推广 会低碳转型、扶持新兴低碳技术的使命和义务。为实现这一目标,腾讯遵循“减排和绿色电力优先、抵消为辅”的原则,大力提升数据中心的能效水平,积极参与绿电转型及相关市场建设,并不断探索碳汇领域的技术革新。怀着这一宏阔愿景,腾讯积极推进数据中心节能减排,例如腾讯在中国南区的第四代T-block技术通过采用高效率的制冷和供配电架构,拥有30万台服务器的园区一年能节省 约2.5亿度电,且具有低噪音、高能效等特点与成本优势8。而其中,经与英特尔合作,基于英特尔®至强®可扩展平台的首款自研服务器,分别将计算密度、散热能力提升50%和45%,为数据中心大幅降低电量提供了关键助力9。同时,数据中心管理、功耗钳制、待机功耗优化等相关技术也被收录于英特尔绿色数据中心技术框架中。 然而目前数据中心的建设规范和导向,都重点关注评价数据中心能源效率的指标(PUE)等电力使用效率指标,也就是数据中心总能耗与服务器等IT设备能耗之比,尚未面向数据中心提出电力灵活性指标。这源于过去服务器电力供应与对应的计算任务信息,处于不同的管理范围和系统,使得数据中心一直基于铭牌功率来配置供电,且认为负荷刚性不可调,进而一直处于“电力跟随算力”的状态。纵观目前针对数据中心的能源管理研究,也主要把算力需求带来的电力负荷作为刚性负荷,把研究的焦点集中在供能系统等非服务器设备,重点关注配置储能、优化供冷系统调节等。其实,细观数据中心用电结构就会发现,服务器才是耗电“大户”,以PUE值为1.3的数据中心为例,服务器耗电占比77%。因此,寻找调节服务器的算力和电力负荷的方式,将能发挥出数据中心的巨大电力灵活性潜力。 也将为绿色可持续发展提供创新动力。 探索和推进数据中心电力灵活性实践 5G、人工智能等新技术的快速发展和应用,为各行各业高质量发展提供了强劲新动能,同时也让作为新型基础设施的数据中心规模不断扩大,其能耗和社会用电占比都在持续增长,预计2025年中国数据中心耗电将占社会总用电量4%6。因此,加速数据中心绿色转型也成为节能减排、促进可持续发展的重要途径。 作为一家领先的互联网科技公司,腾讯秉持“用户为本,科技向善”的使命愿景,制定了腾讯自身的碳中和目标设定和减排路线规划7,承诺不晚于2030年,实现自身运营及供应链的全面碳中和;同时,不 晚于2030年,实现100%的绿色电力,并希望主动承担起助力社 PUE=数据中心总能耗/IT设备能耗 PUE,PowerUsageEffectiveness的简写,是评价数据中心能源效率的指标、数据中心消耗的所有能源与IT负载消耗的能源的比值。其中数据中心总能耗包括IT设备能耗和制冷、配电等系统的能耗。PUE值大于1,越接近1表明非IT设备耗能越少,即数据中心能效水平越好。 同时,数据中心作为数字化技术的核心节点,数字化与自动化基础较高,与电力相关的传感器数据采集、设备控制等也较为齐全。算力消耗的电力是由算力程序驱动电子元件的电力消耗,算力天然的可观、可测、可即时调节特性,使得实际上可以通过算力的调整达到服 务器在分钟级、秒级响应速度下的高精度电力负荷控制,而无需额外增加任何硬件。这使得数据中心在电力灵活性调节上具备天然的技术可行性。 从政策导向看,为了激励各级、各类用户积极实施需求侧响应,电网根据发出响应邀约到需求侧实际执行响应的时间尺度,已将响应分为日前响应、小时响应、分钟响应、秒级响应等模式,并针对不同类型的响应模式,给予容量(kW)和能量(kWh)补偿。比如,在试点省份浙江,对电力需求响应电能量补偿费用高达4元/kWh10,远高于数据中心等平均不到1元/kWh的工商业电价11。因此,数据中心以及数据中心的用户,通过进行需求侧响应,在为电网提供电力灵活性的同时,也可为自身带来可观的额外收入,将成为数据中心发挥其电力灵活性的强大动力。 基于此,在新能源发电渗透率不断提高,用户侧需求响应逐步常态化,电力调频、调峰、备用等辅助服务逐步开放的今天,也促使我们思考如何在数据中心提升电力灵活性上迈开步伐,促进数据中心作为丰富的用户侧电力灵活性资源,助力新型电力系统建设。针对这一主题,腾讯、英特尔、中国电信携手,关注数据中心服务器负载的电力灵活性,提出通过判断计算任务在服务器上的算力-电力特征,在不影响业务运行的情况下,降低用电部件的实时冗余性、调整业务负载的时间分布和并行规模,从而达到降低、平移、伸缩数据中心服务器的用电负荷,形成“算力跟随电力”的特性,展现出如下优势: •数据中心数字化程度高,可秒级响应并精准跟随指定负荷 •无额外硬件购置成本 •适合任意大小的数据中心、集群和服务器 针对数据中心服务器负载的需求响应,国外已有一些相关实践。 自2017年以来,谷歌已将每年的用电量100%匹配到可再生能源的采购中。2020年起,谷歌通过在数据中心运营中配置碳智能计算平台,使数据中心能够灵活地将计算任务转移到一天中的不同时段,来消纳更多的太阳能和风能等无碳能源。在此基础上,又基于电网对碳密集型能源依赖程度的日前预测,测定不同区域每小时无碳能源可用性,进而在全球不同区域的数据中心之间“转移计算”任务,让太阳能和风能等可再生能源使用“始终在线”,实现电力资源的优化匹配12。 日本NTT公司在2011年,与英特尔合作,为应对震后电力供应紧张及政府限制企业用电要求,控制服务器功率上限与功耗。通过将高负载服务器的性能降低到90%,将数据中心峰值用电量降低了18%;通过将低负载服务器的性能降低到70%,将数据中心峰值用电量降低了16%;而且通过控制服务器的总功耗,可以在保证关键业务不暂停的情况下,在外部断电期间延长数据中心运行时间约1.8倍13。 从上述案例可以看出,数据中心算力-电力的相互协同具有巨大潜力,而要主动构建数据中心的算力电力灵活性能力,核心控制点是在相 数据中心负载 服务器负载 需求响应 时间响应 空间响应 资源协同 算力优化 •在不影响任务表现的情况下,调节服务器功率 •关注响应速度、响应深度、响应时长、响应精度 蓝色为本研究关注重点 AI优化 余热回收 非服务器负载 暖通/供电优化 图1数据中心低碳研究的主要对象和领域 1 服务器功耗状态切换 •服务器通过操作系统电源管理、外部PowerCap和软关机等方式,进行切换功耗状态•功耗状态之间的切换时间影响应用场景 可降低4%-100%功率 3 动态调节计算任务 •对实时性不敏感的并行计算任务进行断点续算和扩缩容,快速改变电力负荷在时间上的分布 •包括科学计算