热门搜索：

实验科学在云音乐落地实践-沐德

文化传媒2023-07-13DataFunSummit2023：数据科学在线峰会苏***

AI智能总结

平台基建

网易云音乐天秤实验平台致力于打造业内领先的AB测试平台，实现实验管控和效果评估一体化，支持高效实验和精准决策。天秤在分流计算、指标计算和数据评估等方面进行了多项创新，包括无状态全内存计算、高检测灵敏度、多维度检验等。此外，基于Doris打造了端到端全链路实验分析产品与套件，构建了高性能、亚秒响应延迟的分布式分析型数据库。

指标基建

指标模型设计注重可测量、可计算、可收敛、灵敏和指向性。指标模型开发涵盖开发、调试和运维的成本及效率。指标生产与查询方面，确保成本与效率、可监测性和可回溯性。

实验科学性

关键因素

影响实验科学性的关键因素包括实验分流统计功效、指标值稀疏性、统计显著性、最小样本量、实验观测周期、实验AA检测、实验文化、指标异常值和系统波动等。

均匀分流

SRM问题：实验流量分配不科学，人群选择和流量分配不科学，实验前用户状态偏差，实验二次进入用户状态偏差等。
预防措施：使用Hash算法和murmurhash减少误差，科学流量分配等。
监控和诊断：样本监控、样本比例检验和样本同质化检验，实验诊断和归因治理。

科学评估

评估体系：业务核心指标、全局指标和实验观测指标。
评估难点与挑战：统计功效低、多重检验问题和其他常见问题。
解决方案：增加样本量、减小方差、修正α和p值等。

实验效率

实验效率关注确定边界、完善平台和数据基建、方法与经验沉淀以及实验文化运营，以提高协作、接入和决策效率。

以上总结了主要的内容和关键数据，确保结构清晰、易于理解。

2023DataFunCon实验科学在云音乐落地实践演讲人：沐德-网易云音乐-资深算法平台研发工程师 Contents 目录平台基建指标基建实验科学性实验效率 02平台基建平台基建云音乐天秤实验平台致力于打造业内领先的一站式AB测试平台，实验管控&效果评估一体化，助力产研、运营快速实验、精准决策。天秤在分流计算、指标计算、数据评估各方面尝试更多创新：无状态、全内存计算、性能更高；高检测灵敏度，样本需求更少，存储计算更优；多维度检验，实验评估更科学、更准确。现阶段，基于Doris打造端到端全链路实验分析产品与套件，构建高性能、亚秒响应延迟的分布式分析型数据库，满足在实验全链路诊断稽查、实验数据处理与分析等核心诉求。对标业内&技术创新 02指标基建指标基建指标模型设计可测量、可计算、可收敛、灵敏、指向性好指标模型开发开发、调试、运维成本及效率指标生产与查询成本与效率、可监测、可回溯、即席查询 03实验科学性影响实验科学性的关键因素？系统波动统计功效实验分流实验AA检测样本-均匀分流指标-正确计算最小样本量实验文化实验方案设计效果-科学评估统计显著性指标值稀疏实验观测周期指标异常值决策-有效执行 SRM问题-归因 .分流算法不随机分流算法优化（随机性、正交性），控制错误概率 .实验流量分配不科学人群选择、流量分配不科学，流量扩量不规范 .实验前用户状态偏差实验二次进入用户状态偏差，方案问题案例分享： 1.A实验-特殊需求，滥用灰度功能导致实验组流量污染 2.B实验-增加歌单头部位置付费歌曲比重，场景人群流失 3.C实验-权益激励，实验组策略激进，触发风控，丢失样本 .实验策略/漏洞影响留存策略或者漏洞影响到组内用户留存 .实验日志上报漏报、错报常见于工具漏洞，优化工具达到收敛 .风控、反垃圾策略导致组内用户“异常”活跃实验SRM问题带来的高昂排查和分析成本，显著阻碍实验效率 SRM问题-预防（避免引入）（1）实验平台分流算法及分流模型验证：控制分流不均概率 Hash算法计算耗时1000wuuid 正交性误差-1层1000wuuid 正交性误差-2层1000wuuid 正交性误差-3层1000wuuid murmurhash 1.025s 0.06% 0.16% 0.35% md5 14s 0.11% 0.22% 0.42% bkd 0.116s 0.73% 140% 796% SRM问题-预防（避免引入）案例分享： 1.常见于客户端实验，APP冷启动、场景冷启动，样本到达概率有偏，样本比例无法同步收敛，导致数据反常识 2.头部用户聚集-常见于礼品打赏、数专购买等消费类场景实验（2）科学流量分配：等比例分配流量、等比例扩缩量收益1：对照组、实验组流量到达概率及收敛速度一致（规避缓存问题）收益2：对照组、实验组用户分布更均匀、检测误差更小 SRM问题-监控（及时发现、预警）（1）样本监控-样本量、比例、小时级（2）样本比例检验-Chai-Squaretest （3）样本同质化检验 SRM问题-诊断（问题归因、治理）（1）实验诊断-DS介入/系统自动实验运行过程数据、质量数据归档（2）归因与治理 srm常见问题归因、推动收敛。实验指标评估体系 .全局指标（守护指标） . 必须守护的业务线指标，实验功能可能对其无直接因果关系，无法直接带来有效提升，但是一般而言，不能对其有显著负向的影响。比如增长类指标、营收类指标、播放指标等。业务核心指标（北极星指标）决策实验功能是否符合预期的「直接效果指标」，即「成功指标」。比如，一级tab进入率指标。 .实验观测指标（辅助指标）辅助实验判断的「观测指标」，也称为「过程指标」，比如新增tab的点击率。一般实验指标评估流程如下：难点1：统计功效低，测试结果不显著统计功效计算公式：样本量（n）其他条件不变，参与实验的样本量越大，统计功效越大。显著性水平（α）其他条件不变，显著性水平越低，统计功效越大。效应量（effectsize）其他条件不变，效应量越大，统计功效越大。方案1：增加样本量 .延长测试时间通过延长实验测试时间，可累计更多的样本进入实验，在实验实验充裕的情况下，该方案有显著效果。 .增加实验流量的比例在保持测试时间不变的前提下，可通过增加实验流量达到增加样本量的目的。 .共享对照组在多组AB实验并行的前提下，可通过共享对照组的方式，提高实验组的样本量。受限于AB测试的时间成本、经济成本，往往不能简单通过增加实验样本量达到目标，另一种方案是保持样本量不变的前提下，通过缩减方差来提高统计功效。面向新客、小流量、权益类实验，持续灌入、累计样本、控制成本方案2：减小方差 .剔除异常值异常值（极大或者极小）对指标方差的影响比较大，比如音乐的播放时长指标，低于10s或者高于86400s都可算作异常值，计算时需要剔除。 .实验前预AA 对实验前各分组核心业务指标进行预AA检测，筛选出差异最小的两个组开启实验。 .选择方差更小的指标同样是衡量新策略对播放的影响，可以将人均播放时长或者人均播放次数的指标转化为方差更小、更稳定的播放率、人均播放UV。 .按触发时机统计很多实验在实际实施时，可能在触发时机前上报是实验标签，稀释实验效果。在统计侧，需要严格按照实验的触发时机去圈选样本，从而有效提高实验指标的灵敏度。 .方差缩减常用的方法有CUPED，根据实验前的数据对实验后的指标进行修正，从而达到缩减方差的目标。重复1000次实验难点2：多重检验问题，实验决策难度大 .什么是多重检验？多重检验问题有称做多重测试或者多重比较问题，第一类错误的概率会增加，从而影响评估结果的准确性。假设P为至少出现一次一类错误的概率，则：当α=0.05时,检验次数n越大，犯错的概率越高。 .最常见的多重检验的案例冗余AA组，一个实验同时出现多个对照组或者策略相同的多个实验组。实验评估目标不清晰，一个实验关联过多评估指标，并在同一检测标准下评估。实验过程中，频繁check实验数据。 .如何规避或者控制多重检验问题？方案1：修正α（Bonferroni法）假设n为检测次数，将α修正为α/n，因为α被修正的更小，则多次检测至少出一次第一类错误的概率P也就更小，趋近于单次检测的犯错概率，Bonferroni修正适合于检测次数较少的情况。方案2：修正p值当检测次数较大时，比如需要对更多细分维度做进一步拆检验，这时候可以通过调整p值来达到修正的目的，常见的方法为BH法。其他常见问题及规避方案 .实验单元违背SUTVA假设常见的涉及到社交媒体朋友圈分享类实验、共享经济或资源类实验。一般通过空间、时间隔离的方法来规避，同时辅助监控。 .辛普森悖论常见的实验组和对照组样本人数虽然实现了均分，但细分维度分布出现显著不均匀的情况。该类问题排查难度较高，通常是工程和实验实施层面出现了问题。 .新奇效应常见的涉及到体验类新功能上线时，老客户对于新变化一般有比较强的好奇心，短期内行为表现会更活跃，效果更「显著」。一般通过同期群分析、抽取新用户下钻分析进行检测。 .AB测试局限性常见的用户规模较少、变量无法被干预或者控制时，无法进行AB测试。一般采用非实验的因果分析方法，比如匹配法、工具变量法、用户调查分析等。 04实验效率实验效率 .完善平台、数据基建，关注接入效率 .确定边界，避免扯皮，关注协作效率 .方法与经验沉淀，实验文化运营，关注决策效率 2023DataFunCon 演讲人：沐德-网易云音乐-资深算法平台研发工程师

点击免费查看完整报告