行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

基于表征学习的因果推断技术实践

文化传媒 2022-12-16 DataFunSummit2022：因果推断在线峰会风与林

基于表征学习的因果推断技术实践总结

01 工业界RCT实验规范

为什么随机试验拥有如此强大的魔力？

随机试验（RCT）之所以强大，主要基于以下三点：

可比性和协变量平衡：RCT通过随机化确保不同处理组在协变量分布上的一致性，从而实现因果效应的准确估计。
可交换性：随机试验后，处理变量与潜在结果独立，即不同处理组的样本具有相同的性质，处理变量的交换不会影响潜在结果。
无后门路径：随机化阻断处理变量与协变量之间的路径，消除混淆效应。

RCT的局限性

成本高昂：RCT实验需要大量预算，且样本选择受限，缺乏普遍性。
数据缺乏普遍性：RCT样本与策略样本不完全重合，限制了结果的推广性。

完备的RCT校验工具

数据正确性检查模块：通过训练模型检查协变量与处理变量之间是否存在相关性，确保数据无偏。
特征筛选模块：筛选对处理变量和结果变量均有影响的特征，剔除无效特征。
因果模型评估模块：使用AUUC或qiniscore曲线评估因果效应，并关注各处理组的样本占比，确保随机性。

科学，高效的RCT方案

两种RCT设计方案：
- 嵌套设计：直接从目标人群中随机采样，分为RCT实验组和策略实验组。
- 非嵌套设计：采用不同采样机制得到RCT实验组和策略实验组。
设计RCT方案的关键步骤：
- 明确目标人群，避免特殊规则影响样本分布。
- 实验前和定期shuffle流量，确保数据分布一致。
- 选择合适的特征选取方法（用户维度或请求维度），避免post-treatment特征。
- 采用OnlineRCT，持续在线小流量实验，提高经济性和灵活性。

02 树模型&NN联合建模

建模思路

RCT数据下的因果推断：主要使用协变量和调整变量的表征回归结果变量，但实际影响因果效应的只有协变量。
树模型与NN模型的结合：
- 树模型：得到协变量的表征。
- NN模型：支持更个性化的结构。
融合方法：
- 使用树模型生成的协变量embedding作为NN模型的特征。
- 使用对抗学习进行特征分解。

03 观测数据&RCT数据融合建模

PSmatching方法

方法概述：通过倾向性评分（PS）进行分层，在每层内计算spiked-in estimator得到局部因果效应，最终加权得到总体ATE。
假设与Estimator：
- 假设倾向性评分小于1且样本独立。
- 计算RCT和ODB的局部ATE，加权得到总体ATE。
观测数据的使用方法：
- 步骤一：根据倾向性评分对样本进行分层。
- 步骤二：观测数据到RCT的协变量分布拉齐。
- 步骤三：观测数据unconfounding性质建立，通过采样和调权确保处理组和控制组的概率一致。
- 假设检验校验机制：通过z-score判断协变量平衡是否达标，若不达标则用RCT数据填充。

改进方法

使用RCT数据训练的uplift模型预估Vec(delta)作为聚类特征，过滤工具变量的影响，提高协变量平衡能力。
多头神经网络引入调整变量，通过Decomposition操作增强协变量平衡能力。

观测融合系统模块

因果模型模块：获得纯协变量的embedding。
聚类模块：基于协变量embedding进行样本分层。
协变量分布拉齐模块：观测数据到RCT的协变量分布拉齐。
unconfounding性质建立模块：观测数据unconfounding性质建立。
假设检验校验模块：通过假设检验确保协变量平衡。
评估系统：兼容所有分层方法的评估系统，提供各处理组在各比较维度下的统计值走势、各数据集的统计值对比、分比较维度的Mape值等。

04 特征分解

基于观测数据建模的优缺点

优点：RCT样本难以构造且昂贵，观测样本可提升模型拟合效果和表达能力。
缺点：引入观测样本会引入偏差。
解决方案：通过样本Reweighting/Balancing技术消除偏差，经典方法包括DragonNet、DML、特征分解等。

特征分解方法概述

协变量分解：将协变量X分解为工具变量I、混淆变量C和调整变量A。
- 工具变量I：只影响处理变量。
- 混淆变量C：影响处理变量和结果变量。
- 调整变量A：只影响结果变量。
方法步骤：
- 从X中分解A：调整变量A与处理变量完全独立，尽可能精准地预估结果变量Y。
- 从X中分解I：在给定处理变量的情况下，工具变量I与结果变量独立，尽可能精准地预估处理变量T。
- 基于分解后的C和A预估Y。

Loss设计

分解A：通过最小化不同处理组下A的分布差异，实现A与处理变量独立，并最小化基于A预估Y的损失。
balancing C：通过平衡不同处理组下C的分布，去掉C与处理变量之间的依赖，实现C与处理变量独立。
分解I：通过最小化不同处理组下I的分布差异，实现I与结果变量在给定处理变量的情况下独立，并最小化基于I预估处理变量的损失。
正交正则化：增加正交正则化避免过拟合和分解不干净，约束权重矩阵正交且各维权重和为1。

落地和创新

binary treatment升级为multi-treatment：引入多头结构，每个处理变量生成对应的I、A、C表示。
使用IPW替代可学习参数：平衡样本。
多处理变量下的概率预估：基于C表示预估处理变量的概率，并使用权重进行加权。
如何保证变量之间独立：通过最小化不同处理组下表示的分布差异，并确保表示中不存在可预估处理变量的信息。
生成对抗网络：通过对抗训练确保A表示无法准确预估处理变量。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

农村产业融合对农业碳排放的影响研究——基于双重机器学习的因果推断

商贸零售

华中农业大学2025-11-25

hot

2 微信基于StarRocks的实时因果推断实践

商贸零售

StarRocks 2024 年度技术峰会2024-12-17

hot

基于因果推断的商家经营智能诊断实践

商贸零售

DataFunSummit2022：因果推断在线峰会2022-12-16

hot

因果推断在翼支付智能决策中的探索实践

商贸零售

DataFunSummit2022：因果推断在线峰会2022-12-16

hot

因果推断在腾讯 PCG 中台的落地实践

商贸零售

DataFunSummit2022：因果推断在线峰会2022-12-16