AIGC与因果推断的双向赋能 演讲人:何刚北京九章云极科技有限公司AI架构师 OurVision OurMission https://github.com/DataCanvasIO/YLearn https://ylearn.readthedocs.io/en/latest/ 九章云极DataCanvas公众号YLearn因果学习交流群 4 5 AIGC “AIGeneratedContent”,又称生成式AI,意为人工智能生成内容。例如AI 文本续写,文字转图像的AI图、AI主01 持人等,都属于AIGC的应用。 03CausalInference 因果推断是指如何科学地识别变量之间的因果关系及量化影响,目前主流研究方向包括潜在结果框架和结构因果模型等研究方向。 SyntheticData 02 合成数据是通过计算机程序或人工智能生 成的数据,企业可以通过使用合成数据填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求。 Gartner提出了合成数据的趋势报告,预计到2030年,人工智能、机器学习模型中的合成数据将完全取代真实数据。下图清楚地解释了合成数据日益增长的重要性。 数据隐私 必须确保匿名或者必须保护 隐私的数据的场景,比如金融、医疗数据的使用 成本约束 部分业务场景数据获取的成 本非常高,比如线下活动的 推荐实施情况等 数据,是数智化的 生命线 数据增强 对真实数据的增强的应用 面比较广泛,比如在制造业图像样本增强等场景 新兴AI用例 对新兴AI算法没有储备的 特征进行补充论证 对企业来说,在现实中获取高质量(干净、标注好、无偏)的数据通常存在很大的挑战。生成数据可以帮助我们应对这一挑战,以便更快、更准确和更可靠的实现AI能力应用。随着数据隐私问题的不断增加,开发数据合成方法变得越来越重要,这种方法可以保护敏感信息,同时保留原始数据的统计财产。其中一种方法是使用人工智能和数据合成类的生成模型。本次分享,将集中在专门用于结构化数据合成的用途。 8 Data-drivenApproaches • • • • GANs VAE BayesianNetworks ML-Based Process-drivenDataGeneration • • • • Agent-BasedModeling/Simulations(ABM) Discrete-eventSimulations NumericalSimulationsMonteCarloSimulations 9 AIGeneratedContentCarrier StructureddataSynthesis 定义:ABM是一种用来模拟具有自主意识的智能体的行动和相互作用的计算模型,评估智能体在系统整体中的作用。分析宏观涌现的微观原因和推演已知微观的未知宏观是ABM的两个主要任务目标。 别名:ABM有许多别名,在大多数社会科学中被称为基于代理的建模ABM(Agent-BasedModeling),在计算机科学中被称作多智能体系统MAS(Multi-AgentSystems),在生态学中被称作基于个体的建模IBM(Individual-BasedModeling)。10 今天的市场和组织是复杂系统(CS)。复杂系统由彼此和环境相互作用的异构元素组成,在多个空间和时间尺度上产生相互依赖性,难以理解、预测和控制。 复杂系统的一个显著特征是它们能够表现出复杂的涌现属性,ABM的核心任务之一是分析涌现的潜在原因。 ABM提供了一个鲁棒而严谨的框架来详细描述系统,其以业务经验假设为起点的模式,具有非常强的可 解释性。 仿真性涌现属性解释性 11 12 W Z X y u CausalDiscovery 因果发现 IdentificationofCausalQuantities 因果量的识别 CausalEffectEstimation 因果效应估计 CounterfactualInference 反事实推断 PolicyLearning 策略学习 反事实问题 干预策略实施后,我们仅能观测到实施状态下的结果,未干预状态下的潜在结果是无法观测的。无法观测到的潜在结果,通常称为反事实 结果(counterfactualoutcome)。 举一个生活中的例子,商店给客户发优惠券,假如我们给一位用户发了优惠券我们就只能知道这位用户收到优惠券的反应,我们无法知道 他没有收到优惠券的反应。 因果效应衡量 随机化实验是因果推断的黄金标准(Rubin,2008;ImbensandWooldridge,2009;AngristandPischke,2009),是观测研究的基础。 受限于反事实状态无法观测,就无法采用MSE等评价进行离线评价,替代性的,我们选用AUUC作为离线评价指标,AUUC是序指标,使用模型预估出的个体因果效应排序,评价这个序的优劣。 可控制性 宏观干预 微观干预 模仿A/BTest Agent Agent Agent 1反事实数据 2预置因果关系 3全部的特征 DataSets 4时序类反事实数据 优质特性 反事实可获取 仿真性 特征完整性 BANKSYSTEMONABM Parameters: Environment •MRR •CAR •RiskFreeRate InterBankLoan Banks Deposit/Withdraw Loan Savers Companys SIMULATION&CALIBRATION MRR=0.08 CAR=0.06 RistFreeRate=0.03 MRR=0.08 CAR=0.08 RistFreeRate=0.03 DataSets ... MRR=0.08 CAR=0.01 Emergent RistFreeRate=0.025 预置因果关系 优势 a)成本可控 b)预置的因果关系 c)完整的特征,不存在不可观测特征 算法发现的因果关系 应用 a)验证因果学习算法精度 b)寻找因果发现算法的最佳组合 c)研发新的因果发现算法 Model 无反事实样本,评价指标具有较强的局限性: •A/BTest成本高昂,仅能衡量群体因果效应,无法衡量个体因果效应 •受限反事实问题,常见的评价指标不可用,经常采用 AUUC、QINI等指标进行离线评价 基于反事实样本的评价指标优势: •采用MSE等常见评价指标,验证算法的有效性 •论证算法个体治疗效应的精度 •论证A/BTest、AUUC、QINI等方法的有效性 •可控的构造有/无偏样本 提供完备的数据基础,下表以因果效应估计举例: TrainDataSet EvaluateDataSet EvaluateMetrics traindata testdata Auuc,Gini,RLoss traindata testdatawithcounterfactual Auuc,Gini,RLoss,Rmse... traindatawithcounterfactual testdatawithcounterfactual Auuc,Gini,RLoss,Rmse... 数据具有更加广泛的适用性,适用各个领域算法 •CausalDiscovery,Causaleffectsestimations,IVModel,... •Bayesiannetwork •MachineLearning •DeepLearning 20 内部数据使用限制应对填补缺乏历史数据解决类别不均衡问题 监管要求可能会阻止公司内不同业务线之间的数据共享。或者,团队可能希望在获得相关批准之前开始使用数据。 研究某些事件(例如市场闪电崩盘、经济衰退、新的行为机制)的历史数据数量有限,这使得研究潜在机制非常具有挑战性。在各种此类设置中,拥有用于测试策略和推论的反事实数据很有用。 对于欺诈检测等用例,数据集通常高度不平衡,传统的机器学习和异常检测技术往往会失败。具有真实性的合成数据以及适当的数据插补技术提供了一种有前途的方法来应对这一挑战。 训练高级机器学习模型易于数据共享研究宏观涌现分析 大规模高级机器学习(例如深度学习)通常使用云服务进行,需要计算资源和大量训练数据。由于多种原因,机构可能无法将训练数据上传到这些服务。合成数据可用于训练模型,然后可以将其带回本地在 真实数据上工作。 通过在机构之间和研究团体内部共享数据,可以为金融机构面临的技术问题找到更好的解决方案。合成数据的共享允许金融机构以满足其数据共享限制的方式执行此操作。 银行外呼运营团队,关注团队规模、小组人数、员工流失率等因素。可以采用ABM模型与校准的方式,针对运营管理的薄弱环节进行原因分析,提出改进建议,进行降本增效。 分析任务 推演任务 研究未知微观解释已知的宏观 利用已知微观推演未知宏观 Micro-levelMacro-level Macrointervention Agent#1 AIGC World Groupofagents interaction Agent#n AIGC Aggregatedbehaviors (Emergence) Microintervention 1 涌现分析 将因果发现、机器学习、敏感性分析技术相结合,分析基于多智能体模型中的涌现。 2 因果图 组合因果发现算法生成因果图,该因果图表示模型参数和模型的输出变量之间的因果关系。然后利用这个因果图更好地理解模型的涌现。 3 方法融合 机器学习和敏感性分析技术,因为综合了不同方法的分析结果,可以对涌现行为做出更丰富的解释。 4 交叉验证 各种方法有时会给出不确定的结果,因果发现算法可以作为补充,使用这些不同的分析技术进行交叉验证。 进化 过滤 校准: ABM校准涉及三个计算成本高昂的步骤;运行模 型、测量校准质量和定位感兴趣的参数。 进化: 在现有校准参数空间的基础上,使用因果效应估 计生成参数组合。 过滤: 使用随机参数组合使用反事实推理方法过滤参数 组合,大大提高了校准效率。 校准加速 25 1 对于给定数据集,定义各变量(如treatment,outcome等) 调用EstimatorModel的fit()方法进行训练, 2 3 得到训练好的EstimatorModel 使用EstimatorModel的estimate()方法。 U1 U2 Z2 Z1 Z3 X U2 U2 Y X4 X1 X2 X3 X X5 Y X6 28 29 感谢您的观看