因果推断方法在微视激励和供需场景的应用与前沿探索
1. 红包激励算法场景
- 背景与业务建模:红包激励的总金额、总时间及下发的红包总个数。以不定间隔、不定金额和不定数量的现金红包激励用户,最大化用户次留和时长。
- 策略三要素:每个红包策略独立编号,抽象为时间t的函数,参数作为向量。
- 策略表示与因果模型:使用T-Learner、X-Learner和DML模型计算treatment effect,以及DR-Net和VC-Net估计连续Treatment的因果效应。
- 核心问题:解决treatment过多、随机流量小等问题。
2. 供需调节算法场景
- 背景与业务建模:调节人群上视频品类曝光比例,提升用户体验和观看时长。
- 策略表示:二值或连续Treatment的因果效应估计,以及多目标约束优化。
- 方法:使用T-Learner、X-Learner、DML等方法,以及DR-Net和VC-Net估计连续Treatment的因果效应曲线。
- 案例:单人群×品类曝光占比策略和全人群品类曝光占比策略。
3. MDP2 Forest方法
- 背景与挑战:在短视频推荐系统中,需要确定每个类目的最优曝光比例,以最大化用户使用时长。
- 方法介绍:
- 连续问题:遍历所有可能的Treatment取值,找到使两边Y均值之差最大的点。
- 高维问题:采用启发式思想,将K个维度随机排序,进行聚合计算。
- 算法加速:采用加权分位数图方法,降低复杂度。
- 实验设计:
- 实验指标:Mean Regret和Mean Treatment Square Error。
- 对比方法:因果推断、DML、DRNet/VCNet、OPE和OCMD。
- 数据集:模拟数据集和半合成数据集。
总结:通过因果推断方法,实现了红包激励和供需调节的优化,解决了传统方法在处理连续多变量和高维问题上的挑战。MDP2 Forest方法在短视频推荐系统中展示了较好的性能。