AI智能总结
丁肇豪新能源电力系统全国重点实验室华北电力大学2024.12.14 目录 1研究背景2关键挑战和创新点3模型方案4算例分析5结论与展望 研究背景 数据中心已经成为支撑社会经济发展的重要新型基础设施其能耗巨大,且占比持续增长。 ChatGPT每天需要响应约1.95亿次查询请求,预计每天进行推理的耗电量为564兆瓦时,一年约消耗2.06亿干瓦时电力。据波士顿咨询公司预估,到2030年,仅美国数据中心的电力消耗就将达到390太瓦时,约占美国全社会用电量7.5% 研究背景 数据中心处理的计算任务类型多样,在线任务和离线任务具有不同计算特性,在时空多维度展现出灵活性。 时间灵活性一离线任务 空间灵活性在线任务 需要实时响应,时间延迟敏感,但多为轻量级计算,可以在不同地理位置数据中心间转移。 处理时间长,对数据和资源依赖性强,异地转移难度大,可在满足服务水平协议(SLA)前提下适当推迟执行。 研究背景 CloudOrchestration技术的发展为不同主体云运营商的开展合作提供了技术基础,使得多云数据中心能够实现在跨域市场信号(电力侧、算力侧)的引导下,协同调度任务并异地执行。从而可以改变数据中心能耗,降低整体运营成本,实现数据中心间资源的余缺互济,释放更大程度的灵活性 关键挑战1:大规模计算任务调度 大规模计算任务调度:准确、高效的任务调度是多云协同优化的基础。然而,计算任务具有大规模、高并发和复杂依赖关系等特性,使得数据中心任务调度面临强随机、非线性和NP-hard问题。 关键挑战2:多云隐私安全保护 多云隐私安全保护:集中式协同调度需要所有数据中心都具有可见性和可控性。多然而,分属不同主体的数据中心间存在潜在的商业竞争关系,对核心数据、调度策略等关键操作信息具有严格的隐私保护要求。 关键挑战3:多主体个性化决策 多主体个性化决策:数据驱动是支撑数据中心大规模任务调度的有效方法。然而,不同主体的调度决策、任务到达模式等信息差异显著,使得数据集呈现非独立同分布特性,导致最终个体决策偏离最优解。 创新点 >为了解决上述挑战,我们提出了一种考虑隐私约束和主体异质特性的联邦强化学习方法,实现了在跨地域市场信号驱动下,多云数据中心的电-算协同优化。 模型框架 将每个云数据中心运营商(CSP)视为一个智能体,基于任务信息与跨域电价信号,进行任务转移与资源分配灵活性。 Dec-POMDP 》将上述多云数据中心协同任务转移和本地资源分配问题建模为部分可观测马尔可夫决策过程(Dec-POMDP)。 状态:每个CSP的状态包括计算任务信息、计算资源特征、电价信息、时间四个部分,记作S,=so,s,s%,t。其中,计算任务信息包括可转移性、依赖关系拓扑、资源占用三种属性。 活资源占用 每个任务的资源占用量:[req,,req];每个任务的当前完成率:[fin"…,fin 1表示可以转移,0表示不可转移 在任务调度过程需要考虑计算任务的底层执行逻辑,通常被表示为有向无环拓扑结构(DAG),具有高度非线性特征。 任务需要按照一定顺序执行,前序任务未被执行的情况下无法执行后续任务。 第11页共23页 一动作:包括多云数据中心间任务转移动作(离散)和本地计算资源分配动作(连续) 首先决定任务的热行地点,进而为在本地处理的任务分配计算资源,并确保分配资源的总和不超过可用资源的上限, i,i'el,jeJ任务转移决策a表示将任务/分配到CSPi执行i,jeJ 本地任务资源分配决策P,.=0,otherwise 资源分配约束ZZ≤resm,分配资源的总和不超过可用资源上限 ,奖励:奖励r定义为任务调度过程中的收益和负成本之和。R,是任务调度期间的累计折扣奖励 奖励函数r=r+r 完成任务收益r=ZZrevfin*=100%:完成计算任务后获得的收益。 ②能耗成本r=-(α(res,-res)+βres")p,:运行时能耗成本,分为运行和空载成本。 ③任务转移成本rr"=-Zcost:任务转移时的交换机和传输带宽成本。 ④超出截止时间惩罚r=-Zpen,:如果任务未在SLA约定截止时间前完成,则相应CSP受到违约处罚。 从时间步t到调度周期T结束的累计折扣奖励可以计算为R,=r,+yr+.+-"r,其中ye[0,1]是衡量当前收益和未来收益重要性的因子,越大代表智能体的目光越长远。 状态转移:CSP作出决定后,动作立即开始执行,不得改变或中断。随后,CSP的计算资源状态会根据动作变化到特定的状态。因此,转移函数是一个确定性映射,其转移率为1。 第13页共23页 分布式联邦强化学习框架 >为解决多云数据中心协同调度过程中的隐私安全问题,提出了基于分布式训练分布式热行(DTDE)框架下的联邦 ■步骤一:本地更新与训练 每个云数据中心各自执行调度策略并独立收集轨迹,并利用策略梯度下降法对每个云数据中心局部损失函数分散更新 局部loss:C(0)=-Zlog元(as)R(t) 局部更新:+=0-2V(0) ■步骤二:局部参数聚合更新 从邻近数据中心收集参数,并通过联邦强化学习框架与邻近数据中心的参数进行聚合更新 q,≥0, q =1i=聚合更新:QaggKkex 步骤三:聚合模型参数Qagg回传 将聚合模型参数Qagg回传给云数据中心,引导其继续进行分散执行,并不断更新局部模型,直至收敛。 第14页共23页 个性化损失函数重构 通过重构云数据中心的局部损失函数,实现对决策网络参数权重的修改,平衡了本地异质特征和全局聚合特征间的更新权重,进一步改变优化更新方向,实现了异构环境感知的主体个性化决策。 原局部损失函数:C(0)=-Zlog(a|s)R(t) 由于异质环境特征导致数据Non-IID,使得聚合参数下降方向与本地损失函数理想下降方向不一致,导致个体决策偏离最优。 输入状态包含异质环境特征 平衡本地异质特征和全局聚合特征间的更新权重 重构后的损失函数对下降方向进行修改更贴近于个体决策最优方向。 当该状态维度异质性低时,趋近于聚合参数当该状态维度异质性高时,增强该特征影响 我们进一步证明了基于重构损失函数的算法收敛性,证明如下: D(0 D(V f(0mg)其中D(0)简记为D。D(Vf(Oe)进一步利用L-smooth性质可得:基于聚合损失函数的L-smooth下降引理、噪声误差定理和CauchySchwarz不等式进一步可得:原又根据本问题实际特性可知优化目标有界。综上,可证收敛性成立, 计算局部损失函数的梯度并使用Jensen不等式放缩可得D(0,0)<Ex[D(0fl,0)]由于H(0+)是α-强凸的,使用Cauchy-Schwarz不等式VH(0.0l-0+D0)≤0进一步可写为D(0)(VH(0))由度量空间的性质可知:D(00)=0因此有(0)=(0)+5D(0)=(0) 算例验证 凌晨0-7时和晚上21-24时数据中心1的电价明显低于数据中心2和3;数据中心1的计算任务主要在8-15时到达,数据中心2的计算任务主要在8时以后到达,数据中心3的计算任务到达时间较为平均。 跨域信号引导的协同任务调度 我们验证了所提方法在跨域电价信号引导下多主体数据中心协同调度的有效性,提出的协同调度机制可将任务转移至电价低直资源充足的区域进行热行,降低了运行成本,实现了更大程度的灵活性释放 口任务转移决策受跨域市场价格信号引导 在0:00-7:00时,云数据中心1电价明显低于2和3,数据中心2和3将部分任务转移到数据中心1执行,以降低整体能耗成本。 口任务转移决策可以考虑到自标数据中心计算资源使用状况 数据中心在进行任务转移决策时考虑了其他数据中心可用的计算资源情况,例如:在9:00-15:00间,由于其他数据中心此时资源利用率也较高,数据中心1只转移一小部分任务给其他数据中心 跨域信号引导的协同任务调度 以数据中心3为例,从微观视角出发,分析电价信号引导下多主体数据中心协同决策的底层调度逻辑 口转移更多离载止时间近的任务去往数据中心1,因为这部分任务时间灵活性有限,需尽快利用数据中心1的低电价以节约成本。 口根据任务执行各个环节的资源分配情况分析,所提方法在资源分配时只分配给当前可执行任务,保证了任务执行约束。 第19页共23页 考虑隐私约束的协同调度 为了进一步比较和评估所提协同调度方法的有效性,我们将所提方法与集中调度方法、完全分散调度方法进行比较。所提方法在保证优化效果的同时,提高了收敛速度。1 集中调度方法:集中调度方法需要掌握全局信息,无法实现多云隐私保护。 ■完全分散调度方法:完全分散调度方法不允许多云数据中心之间进行任务转移,无法利用空间灵活性。 口所提出的方法比完全分散调度方法总成本降低18.6%DDL违反率降低30.8%。第20页共23页 口所提出的方法比集中式调度方法收敛速度提高了30.3% 异质主体个性化决策 考虑了任务到达模式、调度决策、区域电价等异质信息,分析了异质环境特征对多云主体调度决策的影响,实现了不同云数据中心主体的个性化调度决策,进一步降低了运行成本,实现了资源的优化配置 口所提方法能够根据差异化特征进行个性化的决策能耗分布更能够响应电价的时空分布特征,而不是执行同质化的决策,产生近似的能耗分布, 口个性化调度策略更符合主体自身差异化特征,具有更低的成本和DDL违反率 >提出了一种感知环境异质性的分布式联邦学习框架的调度方案,实现了多主体数据中心在市场信号引导下的协同优化,在满足隐私保护等约束的前提下释放了更大程度的灵活性。 >未来研究方向 >未来可拓展到更多算力场景,例如:超算、智算、通算等异构数据中心如何协同? >未来可进一步探究多主体数据中心间协同优化的商业模式和利益分配机制。 敬请各位专家指导!谢谢! 丁肇豪zhaohao.ding@ncepu.edu.cn 更多信息可参考我们的论文:Privacy-PreservingEnergySharingAmongCloudServiceProvidersvia CollaborativeJob Scheduling[J].IEEETransactions on Smart Grid,2024.