您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[StarRocks 2024 年度技术峰会]:2 微信基于StarRocks的实时因果推断实践 - 发现报告
当前位置:首页/行业研究/报告详情/

2 微信基于StarRocks的实时因果推断实践

AI智能总结
查看更多
2 微信基于StarRocks的实时因果推断实践

• • • • • • *参考:TheValueofPersonalDatainInternetCommerce:AHigh-StakeFieldExperimentonDataRegulationPolicy • • *参考: 赋能传统的报表分析,提供更准确的决策报表 1.互联网场景下,面临大数据量的因果推断,目前的单机采样损失效果。 统计检验效力(Power):指统计推断中检验出显著的能力,样本量越大,power越高。 模型预估精度(MSE):因果推断和机器学习模型结合时,样本量越大,模型精度越高,预测值的MSE越小 2.因果推断模型也需要复杂调参过程,需要实时分析能力 我们的愿景:AllinSQL 我们的工作 •Fast-Causal-Inference:腾讯开源分布式因果推断工具 •底层基于OLAP引擎和SQL解析引擎的数据科学计算框架,在秒级处理数千亿行数据因果推断计算。例如,6亿行的数据集执行t检验仅需 0.32秒 •采用SQL/python语言交互,方便分析同学使用 •因果推断工具包,覆盖业内最常用的因果推断模型,已经有20+模型 https://github.com/Tencent/fast-causal-inference 01 • • • • • • •均值检验场景,提供基于做方差估计的检验函数,附带有种方差削减能力 ()方差削减:利用协变量信息做回归’,降低统计量的噪声,提高统计效力 ()后分层方差削减:利用协变量做分层,每一层内分别估计方差再加权,加权后统计量方差更小 假设检验+方差削减SELECT 维度下钻假设检验 search_type,ttest_2samp( avg(click)/avg(show), index, 'two-sided', deltamethod,链式法则求导 CUPED方差削减后分层方差削减 ) avg(click_pre)/avg(show_pre),first_hit_ds ASttest_result FROMtest_data_small;GROUPBYsearch_type 16 •均值检验场景,提供基于做方差估计的检验函数,附带有种方差削减能力 ()方差削减:利用协变量信息做回归’,降低统计量的噪声,提高统计效力 ()后分层方差削减:利用协变量做分层,每一层内分别估计方差再加权,加权后统计量方差更小 假设检验+方差削减SELECT 维度下钻假设检验 search_type,ttest_2samp( avg(click)/avg(show), index, 'two-sided', deltamethod,链式法则求导 CUPED方差削减后分层方差削减 ) avg(click_pre)/avg(show_pre),first_hit_ds ASttest_result FROMtest_data_small;GROUPBYsearch_type 16 •业务场景:许多指标采用传统的统计量较低,需要考虑其他检验方法 •举例:某些指标(金额相关)分布非常极端,高达以上,普通检验不显著,非参检验显著 •具体原理:将实验组和对照组的样本放在一起排序,对排序值进行检验,而不是对指标原始值进行检验 •适用场景(业务收益):业务关心的是策略对更多用户存在提升,而不是对用户平均存在更大幅度提升 适用指标举例: 时长长尾指标 16 业务真实使用效果 • • • • 业务真实使用效果 适用指标举例: 时长长尾指标 16 • • 问题:维度⾼,遍历算法计算量⼤ 问题⽆法⾼效探索交叉维度下的异质因果效应问题第⼀类错误概率爆炸问题 17 (因果树) (因果树) •输⼊:特征受策略状态协变量画像 •因果树模型:分裂条件最⼤化治疗效应的异质性 •输出:树结构叶⼦结点的策略效果 •⾃动化地找出交叉维度下的显著异质因果效应 •输⼊:特征受策略状态协变量画像 •因果森林模型:总结合并不同结构的因果树的结果 •输出:每⼀个⽤户的因果效应估计 •更精准、稳定地预测每个个体的因果效应 17 准确性 不同质的两群人直接对比 无法只允许一部分用户参加活动更新版 本,因为会影响用户体验 对用户进行随机分流,保证差异只来源于策略 不同质的两群人“匹配”后,在同质人群上进行对比 • 应用:观测性分析无法做实验

你可能感兴趣

hot

实用型因果推断方法在互联网中的实践

信息技术
DataFunSummit2023:数据科学在线峰会2023-07-13
hot

2 得物-StarRocks存算分离在得物的降本增效实践

信息技术
StarRocks 2024 年度技术峰会2024-12-17
hot

AIGC与因果推断的双向赋能

信息技术
DataFunSummit2023:数据科学在线峰会2023-07-13
hot

序列数据的因果推断在仓储管理的应用

交通运输
DataFunSummit2023:数据科学在线峰会2023-07-13