研报主要内容总结
01 工业界RCT实验规范
-
Covariate Balance: 在多个处理组中,除了处理变量外,其他协变量的分布一致。
-
Exchangeability: 随机试验使得处理变量和潜在结果之间不存在关联。
-
No Backdoor Paths: 随机试验消除了后门路径,确保了因果关系。
-
Covariate Balance 的数学推导:
- 使用do算子和概率公式推导,证明covariate balance导致因果效应与关联效应相等。
-
RCT 实验的优势与挑战:
- 成本高,缺乏通用性。
- 两种RCT设计方案:嵌套设计和非嵌套设计。
- RCT方案设计要点:明确目标人群、流量shuffle、样本维度选择。
-
Online RCT:
- 小流量持续在线RCT更经济有效,有助于保持数据一致性。
-
RCT 校验工具:
02 树模型 & NN 联合建模
-
树模型:
-
神经网络:
-
融合方法:
- 使用树模型生成的协变量嵌入作为NN模型特征。
- 对抗学习做特征分解。
03 观测数据 & RCT 数据融合建模
-
PS Matching 方法:
- 通过分层计算各层的因果效应,最终加权得到总体的因果效应。
- 优点在于解决了PS在极端值处样本量不足的问题。
-
观测数据到RCT数据转换:
- 分层:根据倾向得分进行分层。
- 协变量调整:使RCT和ODB样本分布一致。
- 调权:构造样本被分到处理组和对照组概率一致。
-
假设检验校验机制:
- 通过假设检验判断层内是否达到covariate balance。
-
特征分解:
- 去除工具变量的影响,提高PS模型效果。
- 使用RCT数据训练的uplift模型预估的Δ向量作为聚类特征。
通过以上方法,可以有效利用观测数据和RCT数据,提升模型的因果推断效果。