反事实额度模型总结
1. 因果推断的研究范式
- 相关性与因果性三大基本假设
- SUTVA (Stable Unit Treatment Value): 个体间的响应互不影响,同一个体只能接受一种治疗。
- Unconfoundedness: 相同特征个体的治疗与响应正交。
- Positivity: 存在0 < P(T=1|X) < 1,确保样本不在对照组或实验组。
2. 因果推断的框架演进
- 从随机数据到观测数据
- 基于随机对照试验 (RCT) 的提升模型 (Uplift Model)
- Slearner: 干预变量作为一维特征。
- Tlearner: 干预变量分组建模。
- Xlearner: 分组交叉建模。
- 基于观测数据的双机器学习 (Double Machine Learning, DML)
- 第一阶段:做随机实验。
- 第二阶段:寻找工具变量,采用DML等方法匹配相似样本。
- 基于观测数据的因果表示学习 (Representation Learning)
- Counterfactual Regression (CFR)
- DeR-CFR: 迭代模型,分离观测变量。
- VCNet: 提供连续型干预估计方案。
3. 反事实额度模型设计框架
- 核心问题: 如何给用户设计可借额度,使得平台盈利最大化。
- 先验知识: 额度越高,用户借款越多,违约风险越高。
- 步骤
- 第一步: 在观测数据上建模额度与风险、收入的因果关系。
- 第二步: 估计用户在各个额度档位上的预估收入和坏账,确定最大盈利额度。
4. 反事实额度模型的具体实现
- Monotone Counterfactual Regression (Mono-CFR)
- 因果图: 包括工具变量、混淆变量和调节变量。
- 模型思想: 给定期望额度,学习∆T与Y的单调性关系。
- 模型组成部分
- 额度倾向网络: 预测策略倾向额度,使T⊥∆T。
- 风险单调网络: 约束∆T与Y的单调性。
- 离线评估
- 可解释性验证: 额度对风险的估计曲线。
- 历史小流量随机实验: 验证不同提额幅度下的风险偏差。
- 线上实验结论: 额度上涨30%,用户逾期金额下降20%,借款提升30%,盈利性提升30%以上。
5. 模型演进
- 迭代流程: 观测建模 -> 实验迭代 -> 业务决策
- Step 1: 基于历史大量观测数据进行反事实因果学习。
- Step 2: 依据小流量随机样本进行效果验证。
- Step 3: 业务根据模型输出进行实验决策,验证模型效果并获取业务收益。
通过上述模型,平台能够更准确地设计用户的可借额度,从而最大化盈利。