行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2 微信基于StarRocks的实时因果推断实践

信息技术 2024-12-17 StarRocks 2024 年度技术峰会棋落

愿景与工作：团队致力于实现"All in SQL"的愿景，开发了腾讯开源分布式因果推断工具Fast-Causal-Inference，该工具基于OLAP引擎和SQL解析引擎，能在秒级处理数千亿行数据进行因果推断计算，支持SQL/Python语言交互，并包含20+常用因果推断模型。
均值检验场景：
- 提供基于方差估计的检验函数，并具备方差削减能力（利用协变量信息做回归降低噪声，提高统计效力）。
- 适用于传统统计量效力不足的场景，如金额相关指标分布极端时，非参检验更显著。
- 适用于关注用户群体提升而非平均提升的业务场景，如时长长尾指标。
业务真实使用效果：
- 解决维度高、遍历算法计算量大、第一类错误概率爆炸等问题。
- 因果树模型：分裂条件最大化治疗效应异质性，输出树结构叶节点策略效果，自动化发现交叉维度下的显著异质因果效应。
- 因果森林模型：总结合并不同结构的因果树结果，更精准、稳定地预测每个个体的因果效应。
应用场景：观测性分析无法做实验时，通过因果推断工具实现高效分析。

• • •• • • *参考：The Value of Personal Data in Internet Commerce: A High-Stake Field Experiment on Data Regulation Policy •• *参考： 1.互联网场景下，面临大数据量的因果推断，目前的单机采样损失效果。统计检验效力(Power)：指统计推断中检验出显著的能力，样本量越大，power越高。模型预估精度(MSE)：因果推断和机器学习模型结合时，样本量越大，模型精度越高，预测值的MSE越小 2.因果推断模型也需要复杂调参过程，需要实时分析能力我们的愿景：All in SQL 我们的工作 •Fast-Causal-Inference:腾讯开源分布式因果推断工具 •底层基于OLAP引擎和SQL解析引擎的数据科学计算框架，在秒级处理数千亿行数据因果推断计算。例如，6亿行的数据集执行t检验仅需0.32秒 •采用SQL/python语言交互，方便分析同学使用 •因果推断工具包，覆盖业内最常用的因果推断模型，已经有20+模型 https://github.com/Tencent/fast-causal-inference 01 • • • • • • •均值检验场景，提供基于做方差估计的检验函数，附带有种方差削减能力（）方差削减：利用协变量信息做回归’，降低统计量的噪声，提高统计效力 •均值检验场景，提供基于做方差估计的检验函数，附带有种方差削减能力（）方差削减：利用协变量信息做回归’，降低统计量的噪声，提高统计效力 •业务场景：许多指标采用传统的统计量较低，需要考虑其他检验方法 •举例：某些指标（金额相关）分布非常极端，高达以上，普通检验不显著，非参检验显著•具体原理：将实验组和对照组的样本放在一起排序，对排序值进行检验，而不是对指标原始值进行检验•适用场景（业务收益）：业务关心的是策略对更多用户存在提升，而不是对用户平均存在更大幅度提升适用指标举例：时长长尾指标 • ••• 适用指标举例：时长长尾指标业务真实使用效果 • • 问题：维度⾼，遍历算法计算量⼤问题⽆法⾼效探索交叉维度下的异质因果效应问题第⼀类错误概率爆炸问题（因果树）（因果树） •输⼊：特征受策略状态协变量画像•因果森林模型：总结合并不同结构的因果树的结果•输出：每⼀个⽤户的因果效应估计•更精准、稳定地预测每个个体的因果效应 •输⼊：特征受策略状态协变量画像•因果树模型：分裂条件最⼤化治疗效应的异质性•输出：树结构叶⼦结点的策略效果•⾃动化地找出交叉维度下的显著异质因果效应应用：观测性分析无法做实验

点击免费查看完整报告

2 微信基于StarRocks的实时因果推断实践

你可能感兴趣

基于表征学习的因果推断技术实践

基于因果推断的商家经营智能诊断实践

因果推断在翼支付智能决策中的探索实践

因果推断在腾讯 PCG 中台的落地实践

实用型因果推断方法在互联网中的实践

浅谈因果推断与在内容平台的实践

因果推断方法在微视激励和供需场景的应用与前沿方法探索 (2)

农村产业融合对农业碳排放的影响研究——基于双重机器学习的因果推断

基于反事实因果推断的金融额度模型

6 西南证券-驱动业务增长的实时洞察：西南证券的StarRocks实践之路.pdf