清华大学 TsinghuaUniversity 数据为中心的AI技术 在电力系统运行控制中的应用 Al 郭庆来 清华大学 guoqinglai@tsinghua.edu.cn 致谢:周艳真博士、博士生兰健、曾泓泰、王奕 研究背景 电力系统调度决策是保障电网安全经济运行的核心环节 电网调度决策 输电网配电网用户侧 贺量绞菊款 泛但宝查果 膨何醇隔组查巢何醇隔组查乘 人 物理特性场景数据安全约束 [P,O,V,0]不安全断面功率 3-03-3 安全 0-28--244-28 [Y,P,Q] 20-EG-EG Pimi 时间 研究背景 随着新型电力系统建设海量新能源广泛接入,系统结构和特性机理 发生重大变化,为电力系统分析决策带来严峻挑战 风光发电装机容量(单位:亿干瓦) 12系统规模巨大决策变量高维 GW全国发电能力百万 数干 10000 8.000 6000 专家经验方法难以为继驱需人工智能辅助 ?不确定性显著 电磁机理为主体的传统电力系统 电动汽 风电/光伏 电磁、电子融合的新型电力系统2016年#风机工况时变 研究背景 人工智能也有其局限性在电力系统分析控制应用中仍面临诸多挑战 场景数量呈组合爆炸运行不确定性强,机理复杂巨型非线性空间,模型缺失定样本生成难、效率低传统人工智能适应性不足隐私泄露风险,调控难度大 数据量 : 特 常见样本特定类型样本 不确定性强 设备数量 传统电力系统 新型电力系统 系统规模巨大巨型异构变量 样本模式众多 Be 模型参数失配 大 组合爆炸导致 样本生成效率低 t+1t+2不完全可观测 -37运行边界不断变化 数据样本安全分析调度控制 研究背景 2020 2018GPT-3第3代生成式预训练大模型 2016GPT-1,BERT 2012AlphaGo第1代生成式预训练大模型2022 AlexNet掀起强化学习热潮 ChatGPT 掀起深度学习浪潮大模型时代开启 2019 2015 2017 Transformer架构 GPT-2 第2代生成式预训练大模型 ResNet神经网络表达能力大幅提升 解决深度网络退化问题 数据 AI模型 研究背景 研究表明,在相同的A/模型参数条件下,使用更大规模、更高质量数据,训练得到的模型性能越高,关注数据本身是提升AI性能的关键 DataSizeBottleneck 0.75 4.5 4.0 DataSize 21M 43M 0.65 3.586M 172M 344M 0.55 Test 3.0688MCleanData 1.4BNoisyData Accuracy(mAP) 22.0B 2.5 106 107 108109 25050075010001250 1500 Params(non-embed)Numberoftrainingexamples [1]Kaplan,Jared,etal."Scalinglawsforneurallanguagemodels."arXivpreprintarXiv:2001.08361(2020)[2]Andrew,Ng."MLOps:FromModel-centrictoData-centricAl",DeepLearningAl, 研究背景 GPT-14.8G原始数据 更好的AIGPT-240G人工筛选数据 =80%的数据 人工智能领域先驱AndrewNg +20%的算法 GPT-3570G人工筛选数据 ChatGPT带有人类偏好的数据 更好的数据 Alko 训练 更好的AI Data-centricAl 以数据为中心的人工智能 电力研究者如何拥抱AI? AI做什么?电力专家做什么? 或许Data-CentricAl是一个启发 Data-centricAI在电力系统应用的核心难点 01分类问题的类别不平衡02回归问题的分布不均衡 类别A美别 样本分布 典型问题:暂态稳定评估典型问题:断面安全裕度预测 难点:少类样本不足以支撑模型训练难点:所需的样本数量不足,针对每个场生成样本不足以刻画边界景单独训练模型难度较高 03优化问题的数据质量提升04多方数据的隐私保护需求 77 minf(x) st.g(x)≤0 典型问题:大规模优化调度的模仿学习典型问题:多主体交互下的多方协同计算 难点:大规模优化调度涉及变量约束规模巨难点:如何在不泄露原始数据的前提下对数大,数值条件差,求解速度和精度要求高据进行分析计算,保证数据“可用不可见 Data-centricAl 进展1一基于生成式AI的暂态稳定评估数据增强技术 面向电力系统A/分类问题 10 问题提出 口暂态稳定分析的样本集存在失稳样本数量占比少的数据不均衡问题口人工智能方法在不均衡样本集上效果较差,迫切需要进行数据增强 实际电网运行失稳情况极少人工智能方法对训练数据敏感性 0g 实际分类边界 实际运行 不稳定样本极少 数据量问题[1]: Rar() 高占比训练误差 稳定样本仿真不稳定样本数据平衡性问题: 难获取 不均衡样本集 O漏判·失稳样本·稳定样本 模型学习边界 P(x)P(x) 迫切需要对数据进行增强提升暂态稳定评估的性能 [1]HoeffdingW.ProbabilityInequalitiesforsumsofBoundedRandomVariablesMj/FisherNI,SenPK.TheCollectedWorksofWassilyHoeffding.NewYork, NY:Springer.1994:409-426. 技术路线1.1:基于Wasserstein距离的生成对抗网络 口生成式人工智能方法通过训练大量数据来学习数据的内在规律和特征口生成对抗网络是现有研究中最常用的基本生成模型 典型生成式AI模型 1800 1560 1600 高斯✲合模型(GMM) 14001200 1110 流模型(Flow-basedModels) 1000 变分自编码器(VAE) 800 725 扩散模型(DiffusionModels) 自回归模型(AutoRegessiveModels) 600400200 5156789 33890 199 1272129 403 202 156 233 1227 350, 13 13 生成对抗网络(GAN) 0 2018 2019 流模型 2020 变分自编码器 2021 扩散模型 2022 生成对抗网络 2023 传统GAN存在梯度消失和模式崩溃采用基于Wasserstein距离的改进模型 将原模型的JS散度替换为Wasserstein距离 (x)采用满足1-lipschitz约束的神经网络作为判别器 当P(x)和Pdata(x)完全不重合时当生成器学到了Pdate(x)某一种特征 JS散度恒等于常数log2如生成重复样本或有限多样性的样本时12 目标函数对参数的梯度为0 判别器难以提供梯度更新参数 技术路线1.2:考虑电力系统约束的改进生成对抗网络训练方法 口传统生成对抗网络未考虑物理约束,新生成的运行场景可能存在不可行的情况 口在损失函数中加入考虑物理约束的惩罚项,保证生成样本满足基本约束 值域可行域 解决思路:在损失函数中加入考虑物理约束的罚项 等式约束J(x)=0 潮流平衡约束:ZP-ZP-Po=0 不等式约束H(x)≤0 上下界约束:xmin<x,≤xmax 考虑直流潮流的线路功率上下界约束: 训练样本=B-"pSP 取值有效且可行场景P=(0-0)/x 取值有效但不可行场景改进的目标函数: ·损失函数惩罚统一形式 5(x)=a,(x)+αReLU(H(x) 生成模型本身的不确定性+训练误差 minmaxV-ED(x)-E2P:(=D(G(2)-GpGPis(G(2) 新生成的运行场景可能存在不可行的情况基于Wasserstein距离的改进方法保证生成样本 满足基本约束 13 技术路线1.3:面向少数类别和分类边界样本的暂稳评估数据增强 口针对暂稳分类的数据需求,提出面向少数类别和分类边界样本的数据增强方法 ..真实稳定边界面向少数类别样本的暂态稳定评估数据增强方法 模型学习稳定域 模型学习失稳域核心难点:如何充分利用多数稳定样本得到性能较高的失稳生成模型? 模型不确定域 解决方案:利用判别器最大化W(Pus,PG)和W(PusP),重构模型训练过程 minmaxV=(1+p)ED()-ED(G(2)-pED()GP+E(G(z)) 初始数据集的稳定样本 面向分类边界样本的暂态稳定评估数据增强方法 核心难点:如何不断发现并生成已有数据未覆盖的样本,提升模型性能? 解决方案:通过生成模型与判稳模型的对抗学习,消除判稳模型的不确定域 初始数据集的失稳样本生成模型Ga暂稳评估模型 拟生成的少数类样本 拟生成的分类边界样本 14 anJZhouYGuoO.et 技术路线1.4:基于信息滴的样本高效标注方法 口样本标注费时费力,提出基于信息摘的样本高效标注方法,降低样本生成代价 分类问题模型训练有标签样本集最大信息炳准则:根据模型输出结果f(x)计 机器学习模型 稳定生稳 仿真数据 算H(x)对Dw中数据进行排序,优先选择 H(x)较大的样本加入D,中,进行时域仿真得 验证 不确定性 PAASP 增强到样本标签 f:X→(0,1) 度量。无标签样本集 H(x)=-plogp,-p,logp 样本偏差准则:将满足f(x)G条件的样 本,即生成模型认为其暂态失稳而预测模型 X2机器学习模型的不确定域认为其是稳定的样本,将其加入D,中,进行 加入D对D,进行仿真标注时域仿真得到样本标签 对D.进行自动标注 加入D增强后数据集确定性准则:选择H(x)=0且f(x)=1的样 ★Daug=DUD,UD本加入Dc 新生成样本 X115 技术路线1.5:提升暂稳评估性能的对抗训练方法 口通过生成模型与判稳模型的对抗学习,消除判稳模型的不确定域,在送代训练中 使暂稳评估模型趋于最优模型 生成初始参数分类边界样参数参数分类边界样 模型G模型传递本生成模型传递传递本生成模型 数据集 生成训练梯度 样本生成 分类边界 认脸东梯度 样本生成 训练梯度 样本生成 样本集分类边界 .....样本集 仿真 Dr验证 仿真仿真 增量更新 增量更新验证验证增量更新 送程代过 参数 增强 参数 参数 最终 传递 模型 传递 传递 模型 暂稳预测初始 模型f模型 X24X24 初始数据集生成关键样X2送代训练判稳模型准确边界估计 、 16 X1 算例验证 口基于中国电科院根据实际电网数据建立的300节点系统生成样本,基于不同的生 成模型,各生成1000条样本,对于样本生成结果进行仿真校验其暂态稳定性 不同生成模型有效性的对比 生成样本有效率(失稳样本/所有样本) GANGMMVAEDDPMWGAN-GP所提方法 线路A 82.1% 87.2% 81.3% 92.3% 87.1% 91.2% 线路B 64.4% 85.4% 72.8% 88.1% 81.7% 89.4% 暂态稳定仿真结果(蒙特卡洛仿真) 线路C 84.6% 86.4% 83.8% 87.9% 86.8% 92.5% 线路命名系统编号首端节点末端节点失稳样本占比所提方法利用数量更多的稳定样本作为模型训练时的 线路A 111 Bus1B-12 Bus1B-11 26.18% 线路B 275 Bus2W-2 Bus2W-3 22.09% 线路C 77 Bus3L-52 Bus3L-51 26.34% 梯度罚项,相对于其他生成模型表现出更高的暂态稳定场景生成精度 17 算例验证 口将所提样本标注方法应用于300节点系统,可以显著降低仿真标记时间 口该方法也可用于变化场景下模型更新的样本生成,显著降低模型更新时间 样本选择后的样本分布不同仿真策略暂稳校验耗时 100%0.80% 90% 80% 7000 6000 5806.7 5460.1在300节点数据集上,利用 70%50004587.9 基于信息摘的样本选择方 60% 82.10% 73.40% 81.