核心观点: 该研报探讨了如何利用数据提升因果推断的准确性,重点介绍了纠偏因果树(GBCT)和因果数据融合技术。
关键数据和研究结论:
- 观测数据与实验数据: 观测数据存在选择偏差,无法直接估计因果效应,需要借助因果推断技术进行处理。
- GBCT: 通过构建因果树模型,GBCT能够有效降低选择偏差,并估计实验组和对照组之间的效应差异。GBCT的分裂准则考虑了效应的异质性,能够更好地处理复杂场景。
- 数据融合: 针对跨域数据异质性,研报对比了多种数据融合方法,最终推荐使用加权多源直接学习器(WMDL)。WMDL能够有效处理多层次的数据间异质性,并具有双重鲁棒性,在真实数据上表现优异。
- 业务应用: 研报以蚂蚁集团的业务为例,展示了GBCT和WMDL在估计干预效应方面的应用。例如,可以用于评估提额/降价等干预措施对用户余额/风险的影响。
技术细节:
- GBCT: 利用混淆熵和经验损失函数进行参数估计,并通过集成学习方法提升模型稳定性。
- WMDL: 通过Causal-Information Aware Weighting机制,根据不同域之间的分布差异和效应方差,为每个域的数据分配不同的权重。
总结: 该研报为因果推断提供了实用的方法和工具,能够有效提升模型准确性,并应用于实际业务场景中。