输入标题Title 2023DataFunSummit 双边平台中的因果效应 GlobalTreatmentEffectinTwo-SidedPlatforms 演讲人:徐萌公司:SnapInc. 职位:LeadAppliedResearchScientist Contents 目录 1234 输入标题Title 估算因果效应不容易:双边互动 单边实验的后续分析 特殊实验设计 总结、问答与讨论 输入标题Title 01估算因果效应不容易:双 边互动 输入标题Title 平台中的互动关系 ●各种平台中广泛存在着各种双边互动关系 ○电商平台:买方和卖方 ○社交网络:内容创作者和内容观看者 ○分享经济平台:司机和乘客,房东和房客 ○旅游网站:游客和酒店机票代理 ●在这些平台进行随机试验(A/Bstudy)往往会影响到双边互动关系 ○以社交媒体Snapchat为例 ■影响内容创作者创作的实验也会进一步影响内容观看者的平台使用 ●改善内容的画质 ■影响内容观看者的实验也会影响内容创作者 ●点赞多、观看多、评论多,能激励更多创作 输入标题Title 随机实验做什么 ●实验的目的:估算全局效果(globaltreatmenteffect) ○因果推断:把实验处理(treatment)推广到所有人有什么效果 ○比较两个平行宇宙的结果:什么都不做VS把一个改变推广到所有人 ○不能穿越到另外的宇宙,通过随机试验(A/Bstudy)来估算效果 ●随机试验(A/Bstudy) ○随机把实验对象分成控制组(A)和对照组(B),样本足够两组人可比 ○什么时候随机试验可以用两组结果的差异准确估算全局效果 ■StableUnitTreatmentValueAssumption(SUTVA) ■一个实验对象被分配到实验组还是对照组不会影响其他实验对象的结果 互动关系:单边随机试验无法估算全局效果(一) ●两种常见的单边实验设计(以社交媒体为例) 输入标题Title ○随机分配内容创作者 ○随机分配内容观看者 ●互动关系的存在使得我们无法通过单边随机试验来估算全局效果(以随机分配内容创作者的实验为例) ○违背了SUTVA,一个实验对象被分配到实验组还是对照组影响其他人的结果 ○影响到控制组的内容创作者 ■一个实验使得实验组的创作在推送中排名上升,控制组和其他没有参加实验的创作者排名下降,在实验推广到所有人之后两组创作者重新排名,区别消失,实验高估真实效果 ○影响内容观看者 ■改善画质,提高内容水平,影响内容观看者的参与度 互动关系:单边随机试验无法估算全局效果(二) ●一个例子 输入标题Title ○影响控制组的内容创作者 ■一个实验改善了发布质量,使得实验组的创作在推送中排名上升,控制组和其他没有参加实验的创作者排名下降,在实验推广到所有人之后两组创作者重新排名,区别消失,实验高估真实效果 ●真实因果效应是250 ●实验中两组差是1500,高估实验真实效果 点击量 控制组 实验组 没有改善 1000 1000 实验组有改善 500 2000 两组都改善 1250 1250 输入标题Title 如何估算全局效果 ●没有一个万能的方案,所有方法都有局限性,适合用在不同情况下 ●单边实验的后续分析 ○设计衡量另一方参与度的指标,viewer-sidemetrics ○因果中介分析(causalmediationanalysis) ●特殊实验设计 ○聚类随机试验(clusterrandomizationexperiment) ○时间序列试验(switchback/time-seriesexperiment,interruptedtimeseries(ITS)) ○合成控制法(syntheticcontrol) ○双边随机试验(two-sidedrandomizationdesign) 输入标题Title 02单边实验的后续分析 单边实验设计 ●两种常见的单边实验设计(以社交媒体为例) 输入标题Title ○随机分配内容创作者的实验(creator-sideexperiment)(侧重讲) ○随机分配内容观看者的实验(viewer-sideexperiment) ●如果随机对象(randomizationunit)之间较少互相影响,单边实验后续分析可行 ○随机分配内容创作者的实验中内容创作者之间没有非常明显的竞争关系 ●设计衡量另一方参与度的指标 ○Creator-sideexperiment:viewer-sidemetrics 内容观看者指标(viewer-sidemetrics) ●比较实验组和对照组:保持随机对象和分析对象一致 输入标题Title ●加总指标(summetrics) ○为creator-sidemetrics寻找对应的viewer-sidemetrics,把观看行为加 总到创作者身上 ○一个创作者的所有内容一共被看了多少次,看了多久,收到多少回复、 评论、点赞,等等 ●平均指标(avgmetrics) ○每条内容平均被看了多少次,看了多久,收到多少回复、评论、点赞 ●比率指标(ratemetrics) ○每条内容观看后的回复率、评论率、点赞率 分析加总指标(summetrics):方差缩减、分组分析 ●Summetrics通常存在方差过大的问题 输入标题Title ○网红/朋友多的人内容被看很多次 ○普通用户只被看了几次 ○给定样本量(samplesize)和效果大小(effectsize),方差越大,有效果时统计显著性越低 ●方差缩减 ○Controlled-experimentUsingPre-ExistingData(CUPED) ○通过线性回归、用机器学习做crossfitting来residualizemetrics ●分组分析 ○根据实验前的信息把用户分组,网红VS普通用户 ○计算异质性效果(heterogeneoustreatmenteffect) 输入标题Title ○以一个创作者的内容一共收到多少回复为例 ○中介效应(mediatedeffect):发更多帖,更多回复 ○直接效应(directeffect):即使发帖数量不变,内容质量提高可能会吸引更多回复 Creator-sidemetric 分析加总指标(summetrics):因果中介分析(一) ●一个实验可能通过两条途径影响加总指标 Treatment Viewer-sidemetric (发多少个贴) (所有贴一共收到多少回复) 输入标题Title 分析加总指标(summetrics):因果中介分析(二) ●潜在结果因果推断模型PotentialOutcomesCausalInferenceModel ○Y(d,M(d)) ○总效果:tau=E[Y(1,M(1))-Y(0,M(0))] ○中介效应:delta(d)=E[Y(d,M(1))-Y(d,M(0))] ○直接效应:theta(d)=E[Y(1,M(d))-Y(0,M(d))] ○tau=delta(1)+theta(0)=delta(0)+theta(1) 分析加总指标(summetrics):因果中介分析(三) ●一个例子 输入标题Title ○两者可能方向不同,导致总效果为0 ■视频更好看但是size更大了网不好的时候发不出,发帖少了,中介效应为负 ■视频更好看,内容观看者更愿意看了,看了更愿意回复,直接效应为正 ■如果不区分这两种效果,只看到总体效果为0,可能放弃这个改善 ■区分两种效果,思考如何改善负的中介效应 控制组 实验组 没有变化 发帖量=5,每个贴回复=3,总回复=15 发帖量=5,每个贴回复=3,总回复=15 视频更好看,size更大网不好发不出去 发帖量=5,每个贴回复=3,总回复=15 发帖量=3,每个贴回复=5,总回复=15 总效果 实验组总回复-控制组总回复=15-15=0 中介效应:发帖量变化,每个贴回复不变 实验组发帖量x控制组回复量-控制组发帖量x控制组回复量=3x3-5x3=-6 直接效应:发帖量不变,每个贴回复变化 实验组发帖量x实验组回复量-实验组发帖量x控制组回复量= 分析加总指标(summetrics):因果中介分析(四) 输入标题Title ●因果中介分析的方法和相关文献 ○Modelbasedsimulationmethod(ImaiandKeele2010) ○Weightingmethod:InverseProbabilityWeighting(IPW)(Huber2014)andBalancingapproach(Chenetal2016) ○Multiplyrobustestimatorbasedontheefficientinfluencefunction(TchetgenTchetgenandShpitser,2012) ○Multiplyrobustestimatorbasedontargetedmaximumlikelihood(ZhengandvanderLaan,2012) 分析平均指标(avgmetrics)和比率指标(ratemetrics):处理selectionbias(一) 输入标题Title ●平均指标(avgmetrics) ○每条内容平均被看了多少次,看了多久,收到多少回复、评论、点赞 ●比率指标(ratemetrics) ○每条内容观看后的回复率、评论率、点赞率 ●这些指标都涉及到分母 ○一共有多少条内容 ○一共有多少条内容被观看 ●实验可能对分母也有影响,造成实验组的分母和对照组的分母不可比,有selectionbias 分析平均指标(avgmetrics)和比率指标(ratemetrics):处理selectionbias(二) 输入标题Title ●如何处理selectionbias ●以每条内容收到多少回复为例 ○收集每条内容之后的一些变量 ○运用基于观察数据的因果推断方法来match,weight,regressionadjust 使得两组数据在这些变量上具有同样的distribution ○在分母可比的基础上,来比较平均指标和比率指标 分析平均指标(avgmetrics)和比率指标(ratemetrics):处理selectionbias(三) 输入标题Title ●一个例子: ○某种treatment使得低端手机用户发帖量减少 ○观察到实验组的平均回复数增加是因为分母总发帖数背后的人不可比了,而不是因为帖子质量更好了 总发帖数 控制组 实验组 high-enddeviceuser 10 10 low-enddeviceuser 5 3 全部 15 13 平均回复数 控制组 实验组 high-enddeviceuser 10 10 low-enddeviceuser 5 5 全部 125/15=8.33 115/13=8.85 总回复数 控制组 实验组 high-enddeviceuser 100 100 low-enddeviceuser 25 15 全部 125 115 ○通过reweight使得分母总发帖数背后的人可比,控制组low-enddevice控制组的权重调整成⅗,变成和实验组一样3个人,全部的平均回复量就没区别了 输入标题Title 单边实验设计的局限性 ●如果随机对象(randomizationunit)之间相互影响很严重,单边实验就很难 估算出真实效果 ○以随机分配内容创作者的实验为例,一个实验影响实验组的内容创作者的行为,可能 进一步影响到控制组的内容创作者 ○一个实验使得实验组的创作在推送中排名上升,控制组和其他没有参加实验的创作者排名下降,在实验推广到所有人之后两组创作者重新排名,区别消失,实验高估真实效果 ○即使推送排名不变,观看者的时间是有限的(一天只看1个小时),花更多时间(45分钟)在更好看的内容上(实验组),看到不那么好看的内容(控制组)迅速划过(15分