2023DataFunCon实验科学在云音乐落地实践 演讲人:沐德-网易云音乐-资深算法平台研发工程师 Contents 目录 平台基建指标基建实验科学性实验效率 02平台基建 平台基建 云音乐天秤实验平台致力于打造业内领先的一站式AB测试平台,实验管控&效果评估一体化,助力产研、运营快速实验、精准决策。天秤在分流计算、指标计算、数据评估各方面尝试更多创新:无状态、全内存计算、性能更高;高检测灵敏度,样本需求更少,存储计算更优;多维度检验,实验评估更科学、更准确。现阶段,基于Doris打造端到端全链路实验分析产品与套件,构建高性能、亚秒响应延迟的分布式分析型数据库,满足在实验全链路诊断稽查、实验数据处理与分析等核心诉求。 对标业内&技术创新 02指标基建 指标基建 指标模型设计可测量、可计算、可收敛、灵敏、指向性好指标模型开发开发、调试、运维成本及效率 指标生产与查询成本与效率、可监测、可回溯、即席查询 03实验科学性 影响实验科学性的关键因素? 系统波动 统计功效 实验分流 实验AA检测 样本-均匀分流指标-正确计算 最小样本量 实验文化 实验方案设计 效果-科学评估 统计显著性 指标值稀疏 实验观测周期 指标异常值 决策-有效执行 SRM问题-归因 .分流算法不随机 分流算法优化(随机性、正交性),控制错误概率 .实验流量分配不科学 人群选择、流量分配不科学,流量扩量不规范 .实验前用户状态偏差 实验二次进入用户状态偏差,方案问题 案例分享: 1.A实验-特殊需求,滥用灰度功能导致实验组流量污染 2.B实验-增加歌单头部位置付费歌曲比重,场景人群流失 3.C实验-权益激励,实验组策略激进,触发风控,丢失样本 .实验策略/漏洞影响留存 策略或者漏洞影响到组内用户留存 .实验日志上报漏报、错报 常见于工具漏洞,优化工具达到收敛 .风控、反垃圾 策略导致组内用户“异常”活跃 实验SRM问题带来的高昂排查和分析成本,显著阻碍实验效率 SRM问题-预防(避免引入) (1)实验平台分流算法及分流模型验证:控制分流不均概率 Hash算法 计算耗时1000wuuid 正交性误差-1层1000wuuid 正交性误差-2层1000wuuid 正交性误差-3层1000wuuid murmurhash 1.025s 0.06% 0.16% 0.35% md5 14s 0.11% 0.22% 0.42% bkd 0.116s 0.73% 140% 796% SRM问题-预防(避免引入) 案例分享: 1.常见于客户端实验,APP冷启动、场景冷启动,样本到达概率有偏,样本比例无法同步收敛,导致数据反常识 2.头部用户聚集-常见于礼品打赏、数专购买等消费类场景实验 (2)科学流量分配:等比例分配流量、等比例扩缩量 收益1:对照组、实验组流量到达概率及收敛速度一致(规避缓存问题)收益2:对照组、实验组用户分布更均匀、检测误差更小 SRM问题-监控(及时发现、预警) (1)样本监控-样本量、比例、小时级(2)样本比例检验-Chai-Squaretest (3)样本同质化检验 SRM问题-诊断(问题归因、治理) (1)实验诊断-DS介入/系统自动 实验运行过程数据、质量数据归档 (2)归因与治理 srm常见问题归因、推动收敛。 实验指标评估体系 .全局指标(守护指标) . 必须守护的业务线指标,实验功能可能对其无直接因果关系,无法直接带来有效提升,但是一般而言,不能对其有显著负向的影响。比如增长类指标、营收类指标、播放指标等。 业务核心指标(北极星指标) 决策实验功能是否符合预期的「直接效果指标」,即「成功指标」。比如,一级tab进入率指标。 .实验观测指标(辅助指标) 辅助实验判断的「观测指标」,也称为「过程指标」,比如新增tab的点击率。 一般实验指标评估流程如下: 难点1:统计功效低,测试结果不显著 统计功效计算公式: 样本量(n) 其他条件不变,参与实验的样本量越大,统计功效越大。 显著性水平(α) 其他条件不变,显著性水平越低,统计功效越大。 效应量(effectsize) 其他条件不变,效应量越大,统计功效越大。 方案1:增加样本量 .延长测试时间 通过延长实验测试时间,可累计更多的样本进入实验,在实验实验充裕的情况下,该方案有显著效果。 .增加实验流量的比例 在保持测试时间不变的前提下,可通过增加实验流量达到增加样本量的目的。 .共享对照组 在多组AB实验并行的前提下,可通过共享对照组的方式,提高实验组的样本量。 受限于AB测试的时间成本、经济成本,往往不能简单通过增加实验样本量达到目标,另一种方案是保持样本量不变的前提下,通过缩减方差来提高统计功效。 面向新客、小流量、权益类实验,持续灌入、累计样本、控制成本 方案2:减小方差 .剔除异常值 异常值(极大或者极小)对指标方差的影响比较大,比如音乐的播放时长指标,低于10s或者高于86400s都可算作异常值,计算时需要剔除。 .实验前预AA 对实验前各分组核心业务指标进行预AA检测, 筛选出差异最小的两个组开启实验。 .选择方差更小的指标 同样是衡量新策略对播放的影响,可以将人 均播放时长或者人均播放次数的指标转化为方差更小、更稳定的播放率、人均播放UV。 .按触发时机统计 很多实验在实际实施时,可能在触发时机前上报是实验标签,稀释实验效 果。在统计侧,需要严格按照实验的触发时机去圈选样本,从而有效提高实验指标的灵敏度。 .方差缩减 常用的方法有CUPED,根据实验前的数据对实验后的指标进行修正,从 而达到缩减方差的目标。 重复1000次实验 难点2:多重检验问题,实验决策难度大 .什么是多重检验? 多重检验问题有称做多重测试或者多重比较问题,第一类错误的概率会增加,从而影响评估结果的准确性。 假设P为至少出现一次一类错误的概率,则: 当α=0.05时,检验次数n越大,犯错的概率越高。 .最常见的多重检验的案例 冗余AA组,一个实验同时出现多个对照组或者策略相同的多个实验组。 实验评估目标不清晰,一个实验关联过多评估指标,并在同一检测标准下评估。 实验过程中,频繁check实验数据。 .如何规避或者控制多重检验问题? 方案1:修正α(Bonferroni法) 假设n为检测次数,将α修正为α/n,因为α被修正的更小,则多次检测至少出一次第一类错误的概率P也就更小,趋近于单次检测的犯错概率,Bonferroni修正适合于检测次数较少的情况。 方案2:修正p值 当检测次数较大时,比如需要对更多细分维度做进一步拆检验,这时候可以通过调整p值来达到修正的目的,常见的方法为BH法。 其他常见问题及规避方案 .实验单元违背SUTVA假设 常见的涉及到社交媒体朋友圈分享类实验、共享经济或资源类实验。 一般通过空间、时间隔离的方法来规避,同时辅助监控。 .辛普森悖论 常见的实验组和对照组样本人数虽然实现了均分,但细分维度分 布出现显著不均匀的情况。 该类问题排查难度较高,通常是工程和实验实施层面出现了问题。 .新奇效应 常见的涉及到体验类新功能上线时,老客户对于新变化一般有比较强的好 奇心,短期内行为表现会更活跃,效果更「显著」。 一般通过同期群分析、抽取新用户下钻分析进行检测。 .AB测试局限性 常见的用户规模较少、变量无法被干预或者控制时,无法进行AB测试。 一般采用非实验的因果分析方法,比如匹配法、工具变量法、用户调查分析等。 04实验效率 实验效率 .完善平台、数据基建,关注接入效率 .确定边界,避免扯皮,关注协作效率 .方法与经验沉淀,实验文化运营,关注决策效率 2023DataFunCon 演讲人:沐德-网易云音乐-资深算法平台研发工程师