2023DataFunSummit 探究产品策略优化的长期影响 演讲人:王琛腾讯微信实验平台 Contents 目录 背景介绍现有方法最新研究问答 01背景介绍 ●A/B实验:进行数据驱动决策的重要手段与黄金准则 ●A/Btesting的本质:小样本统计推断 ●由“小”带来的主要问题:短期实验结果无法代表长期策略影响 ○例如一个新的UI设计,上线前通过A/B实验发现对DAU有1%的提升,但无法判断其在上线后三个月是否仍有具有影响 ●进行长期实验 ○与产品快速迭代的目标相违背 ●造成策略效应长短期差异的原因 ○外生影响 ■市场达到供需均衡状态需要时间 ■突发事件 ○内生影响 ■用户学习:noveltyandprimacyeffect ■用户结构改变 ■产品功能发展 ●长期Holdout实验 ○一个策略前期验证过后上线,再留一部分用户不上该策略,长期观察这部分holdout 用户与大盘用户的指标差异 ○费时间,成本高,策略长期不可迭代 ○若策略存在负面影响,则有伤害用户体验的风险 ●构建代理指标预测长期 ○e.g对用户生命周期价值(LTV)的预估 ○一般只关注相关性,无法捕捉到因果效应 ●Cookie-Cookie-dayDesign:关注用户学习的产生的携带效应,对其单独建模 ○Hohnhold,Henning,DeirdreO'Brien,andDianeTang."Focusingonthelong-term:It'sgoodforusersandbusiness."Proceedingsofthe21thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.2015. ●用户学习影响(Userlearningeffect) ○积极的结果会强化导致该结果的行为,而消极的结果会减少导致该结果的行为 ○搜索广告对用户行为(CTR)的影响=广告相关性等直接因素+用户对广告的“态度” ○目标:计算预测这种“态度”的变化 ●STEP1.实验设计 ○多实验组实验,每个实验组开始受到策略干预的时间不同 ■𝐸1组受干预的时间为第1-7天,𝐸2组第2-7天,𝐸3组第3-7天… ■C组代表控制组,不受策略干预 ○计算过去t天策略干预对当下指标的影响:∆𝐶𝑇𝑅t ○∆𝐶𝑇𝑅1=𝐶𝑇𝑅𝐸1−𝐶𝑇𝑅𝐶,∆𝐶𝑇𝑅2=𝐶𝑇𝑅𝐸2−𝐶𝑇𝑅𝐸1,∆𝐶𝑇𝑅3=𝐶𝑇𝑅𝐸3−𝐶𝑇𝑅𝐸1,… 112233 ■下标数字t代表第t天 ●STEP2.用指数函数拟合∆𝐶𝑇𝑅t ●STEP3.建立长期收益的OEC ●Cookie-cookie-day缺陷 ○实验设计复杂→变种Cookie-cookie-day ○需要对携带效应(Carryovereffect)建立参数模型 ●EstimatingEffectsofLong-TermTreatments(https://ssrn.com/abstract=4352459) ●目标 ○只进行短期实验 ○根据短期实验结果,结合历史行为数据,估计策略的长期影响 ●方法浅析 ○代理指标(Surrogates):捕捉到W对Y的所有影响的中间变量 ■例:用肿瘤的大小作为代理指标探究一种靶向药对癌症患者五年生存率的影响 ○将总时间划分为一系列时间窗的加和 ○用代理指标中和早期策略对长期指标的影响 WSY ○根据上一阶段的代理指标、本阶段的策略W、用户协变量,建立对该阶段 代理指标与结果Y的预测 ○不断重复嵌套,得到一系列的预测,直到到达想要的预测时间点 ●现有一个进行了T时间的长期实验,我们将T分解为�=𝑇�+𝑇� ○1:𝑇�→可观测到的实验阶段,模拟短期AB实验时间,例如7天 ○𝑇�+1:𝑇�→无法观测到的未来,例如一个月后 ○𝑇𝑂:实验前历史时间 ●假设实验者站在𝑇�时刻 ●目标:用1:𝑇�时间段的实验数据+𝑇�的历史数据,预测𝑇�+1:𝑇�时间段每个时刻策略的效应 ○将预测效应与真实的T时间实验得到的效应进行比较 ●对于任意一个用户,在t时刻(�∈[𝑇]),定义如下记号: ○从1到t时刻所接受的策略→𝑾1:t=𝟏�/𝟎� ○关注的结果→�=�(�) ●目标平均处理效应: 𝜏�=𝔼[𝑌𝑇(𝟏𝑇)−𝑌𝑇(𝟎𝑇)] ��1:� ○代理指标(Surrogates)→𝑺𝑡=𝑺𝑡(𝑾1:𝑡) 1月1日特价全场五折 影响 Surrogates:代理指标,覆盖住了活动策略对长期指标影响 1月1日购买量 1月1日点击次数 1月1日搜索次数 …… 活动策略对 一个月后指标的影响 (被Surrogates中和) 2月1日 浏览时长 ●某电商平台1月1日的特价活动对2月1日的网站流量时长的影响 ●某电商平台1月1日上线的新UI页面对2月1日的网站流量时长的影响 ●假如将𝑇�与𝑇�进一步分割为更细粒度的时间段: 𝑇�时段的 代理变量 ●图中虚线代表的上一时间段策略W对下一时间段结果Y的影响,被经由上一时间段代理指标S的实线取代 ●假设1.(Surrogacy):1:𝑇�时间段的代理指标S能中和掉该时间段的策略对𝑇�+1:𝑇�时段结 果Y的影响 (𝑌𝑇�,𝑺𝑇𝐹)⊥𝑾1:𝑇𝐸|𝑺𝑇� ●假设2.(Comparability):控制住当前时段的策略W与上一时段的代理指标S后的【结果Y/代 理指标S】,应与上一时段控制住同样条件的【结果Y/代理指标S】同分布 𝑌𝑡′,𝑺𝑡′ 𝑌𝑡′′,𝑺𝑡′′ |𝑺𝑡,𝑾𝑡:𝑡′~ |𝑺𝑡′,𝑾𝑡′:𝑡′′ ●如何选取合适的代理指标(Surrogates)使其符合假设1? ○选用过去可观测到的所有代理指标,不仅仅只是上一个阶段的 ■例如指标1,2,3在时间t=1,2,3,4的值,共12个代理指标 ○关注的结果Y的短期表现亦可作为一个代理指标 ○代理指标越多,预测结果方差越大 ●假设2在存在周期性的时候可能不成立 ○e.g.周中周末的时间条件影响 ○我们在实验中,将天粒度的指标聚合成为周粒度来进一步分析 𝒔,𝒘1:� ●为了帮助建立模型,我们定义如下两个估计目标: 𝒔,𝒘1:� ℎ� =➪[𝑌𝑡|𝑺0=𝒔,𝑾1:�=𝒘1:𝑡]𝑮� ~𝑺𝑡|𝑺0=𝒔,𝑾1:�=𝒘1:� ℎ𝑡𝘍−� 𝑮𝑡𝘍−� ●LongitudinalSurrogateModel 𝑮∆𝑡𝐾(…𝑮∆𝑡1(𝑺0,𝟏∆𝑡1 𝑟�=➪[ℎ∆𝑡𝐾+1 …,𝟏∆𝑡𝐾),𝟏∆𝑡𝐾+1)]−➪[ℎ𝑇(𝑺0,𝟎𝑇)] where∆𝑡�≔𝑡�−𝑡𝑘−1,𝑡𝐾+1=�and𝑡0=0. ●我们将方法应用在真实的长期实验上,实验共进行�=20周 ●按周粒度分析 ○𝑇�:长期实验最开始的几周,模拟可观测的时间 ○𝑇𝐹:长期实验剩余的时间,模拟不可观测的时间 ●对比该方法得到的预估效应v.s长期实验的真实值 ●关注的结果Y上的真实平均处理效应: ●Surrogates:选取反应用户相关行为的指标 ○e.g.请求次数,曝光次数,点击次数/某分类下的结果点击次数... ○结果Y也作为一种特殊地位的代理指标 ○#S:Surrogates指标数量(包含结果Y) ●观察比较不同𝑇�的预测结果 2023DataFunSummit —THANKS— 感谢您的观看 演讲人:王琛腾讯微信实验平台