因果推断背景
因果推断主要解决的问题是通过观察数据来估计因果效应。例如,吸烟与肺癌之间的关系可以通过观察数据进行估计,但理想情况下是通过随机实验来确定。然而,在实际应用中,我们经常只能依赖观察数据来进行因果推断。
数据类型
- 对照数据:历史对照数据可以提供一些因果线索,但数据来源和质量可能参差不齐。
- 多源异构数据:不同的数据源和不同类型的数据可以融合在一起,以提高因果推断的准确性。
纠偏因果树GBCT
GBCT(Generalized Bayesian Causal Tree)是一种改进的因果推断方法,通过构建一棵树来分割数据,从而更好地捕捉因果关系。
树节点
- T: 实验样本,用于确定哪些样本接受处理。
- C: 对照样本,用于确定未接受处理的样本。
- C0/C1: 分割后的子节点,分别对应未接受处理和接受处理的样本。
- T0/T1: 实验样本的进一步细分。
结构
- 继续分裂:通过不断分裂节点,GBCT能够更精确地捕捉到因果关系。
在蚂蚁集团的应用
在蚂蚁集团的实际业务中,GBCT被应用于多个场景,通过融合多源异构数据,提高了因果推断的准确性和可靠性。这有助于更科学地评估不同决策和策略的效果,为业务优化提供数据支持。