• • •• • • *参考:The Value of Personal Data in Internet Commerce: A High-Stake Field Experiment on Data Regulation Policy •• *参考: 1.互联网场景下,面临大数据量的因果推断,目前的单机采样损失效果。 统计检验效力(Power):指统计推断中检验出显著的能力,样本量越大,power越高。模型预估精度(MSE):因果推断和机器学习模型结合时,样本量越大,模型精度越高,预测值的MSE越小 2.因果推断模型也需要复杂调参过程,需要实时分析能力 我们的愿景:All in SQL 我们的工作 •Fast-Causal-Inference:腾讯开源分布式因果推断工具 •底层基于OLAP引擎和SQL解析引擎的数据科学计算框架,在秒级处理数千亿行数据因果推断计算。例如,6亿行的数据集执行t检验仅需0.32秒 •采用SQL/python语言交互,方便分析同学使用 •因果推断工具包,覆盖业内最常用的因果推断模型,已经有20+模型 https://github.com/Tencent/fast-causal-inference 01 • • • • • • •均值检验场景,提供基于做方差估计的检验函数,附带有种方差削减能力 ()方差削减:利用协变量信息做回归’,降低统计量的噪声,提高统计效力 •均值检验场景,提供基于做方差估计的检验函数,附带有种方差削减能力 ()方差削减:利用协变量信息做回归’,降低统计量的噪声,提高统计效力 •业务场景:许多指标采用传统的统计量较低,需要考虑其他检验方法 •举例:某些指标(金额相关)分布非常极端,高达以上,普通检验不显著,非参检验显著•具体原理:将实验组和对照组的样本放在一起排序,对排序值进行检验,而不是对指标原始值进行检验•适用场景(业务收益):业务关心的是策略对更多用户存在提升,而不是对用户平均存在更大幅度提升 适用指标举例:时长长尾指标 • ••• 适用指标举例:时长长尾指标 业务真实使用效果 • • 问题:维度⾼,遍历算法计算量⼤问题⽆法⾼效探索交叉维度下的异质因果效应问题第⼀类错误概率爆炸问题 (因果树) (因果树) •输⼊:特征受策略状态协变量画像•因果森林模型:总结合并不同结构的因果树的结果•输出:每⼀个⽤户的因果效应估计•更精准、稳定地预测每个个体的因果效应 •输⼊:特征受策略状态协变量画像•因果树模型:分裂条件最⼤化治疗效应的异质性•输出:树结构叶⼦结点的策略效果•⾃动化地找出交叉维度下的显著异质因果效应 应用:观测性分析无法做实验