(第1期) 网易云音乐数仓建设之路 雷剑波网易云音乐数据专家 数仓体系建设-背景 缺乏统一体系 各业务相对独立,且发展过程不一,导致数仓构建相对独立,未能形成统一数据模型, 无法高效实现数据资产的共享 缺乏设计规范 缺乏统一的数仓设计规范,表命名、字段命名根据各自的经验建设,理解和使用成本很高 缺乏开发规范 部分业务发展迅速,为响应快速变化的数据需求,ETL有时候会选择较为便捷的做法,如:依赖配置不合理、同一分区扫描 多次 缺乏分层和抽象 缺乏主题域抽象、中间层建设无序,严重消耗计算资源、存储资源,同时增加开发维护成本及管理成本 数仓体系建设-业务目标 降低数据使用门槛、提升决策利用效果、数据驱动业务增长 分析师:数据一致、纬度多样、指标丰富,支持方便的交叉分析算法:产出稳定、质量可信、标准化服务,支撑高效迭代模型 业务:简单易用、探查方便,支撑快速的数据探索和想法验证 数仓体系建设-目标 数据质量、健壮水平、服务响应速度、资源消耗 规范化 共享化 自助化 制定数据仓库公共规范建立统一数据仓库模型 打通各业务数据,实现高效共享、使用 打通数据配送“最后一公里”, easyFetch上线公共数据资产 数仓体系建设-架构图 高质量 高稳定高效率低成本 标准化:制定坑位的标 准化规范和码值定义 自动化:实现新增的规范化埋点,自动进入流量模型 资产化:落地流量罗盘数据产品,将流量标准化为业务可理解的数据 数仓体系建设-内容 维度化:用户域、资源域的标签更加多元和丰富 精细化:沉淀更多不同粒度、不同维度的明细&汇总数据 场景化:实现push、短信、私信、投放等全流程的数据贯通 数据资产沉淀流量数据治理 准确、丰富、易用、高效 流量数据治理-痛点 格式凌乱 10+个业务域,埋点格式差异较大,埋点查找需数据开发配合;10000+历史埋点需测试其格式准确性 质量低下 埋点前环节缺乏规范、需求评审,无人对埋点数据质量负责,埋点上线较为随意 直播埋点数据事故、结算埋点数据事故、 社区曝光埋点事故 开发效率低 客户端埋点实现无较好的技术设计、工程规范,数据仓库流量完全依赖人工读取UA 看数困难 多数聚合流量需重新提JIRA单,人工提数,复杂如特别位置CTR、留存等分析无产品支持 流量数据治理-过程 事前 事中 事后 细化管理粒度,可追溯的唯一标识:坑位ID 建立埋点规范,标准化坑位对象、资源对象、 用户对象,核心三要素:SPM、Action、SCM 与杭研共建落地easyTracker,先后在创新业务、主站落地http://easytracker.bdms.netease.com/ 重造埋点流程,规范数据需求 (DRD)增加格式评审环节加强业务、开发之间的协作http://doc.hz.netease.com/pages /viewpage.action?pageId=243015414 推动灰度埋点稽核, https://music.youdata.netease.com/dash/share/34310?id=4380&token=159496653634405aa57ca565f137b1dad6609 流量数据服务自助化,与产品团队共建流产品“流量罗盘”,流量数据上easyFetch 流量数据治理-存量埋点 愚公移山 坑位: 1.人肉梳理8000+埋点 2.整理归一化为3000+坑位 3.覆盖85%页面 模型:满足90%以上用户需求 1.落地4张DWD模型表 2.落地3张DWS模型表 3.流量罗盘数据产品90+用户 流量数据治理-新增埋点 善假于物 一.埋点规范化设计 二.easyTracker埋点平台承载 三.通过UDF和配置表,实现半自动化ETL, ○DWD任务由原先的10点 提前到6点,加工时长缩 短4小时 流量数据治理-成果 建立坑位埋点规范 页面+子页面+模块+坑位 改进埋点质量 easyTracker上线 建立埋点数据稽核机制 盘活数据资产 easyFetch自助查询 流量罗盘 25.00% 20.00% 15.00% 10.00% 5.00% 9.10% 7.56% 6.76% 5.56% 11.80% 5.32% 5.00% 4.43% 4.29% 4.60% 4.70% 4.07% 4.70% 4.58% 2.78% 3.18% 2.74% 3.13% 2.81% 2.00% 1.80% 2.82% 0.00% 2020年数据质量(双端埋点线下bug率) 8.00% 半自动生成代码并优化 简化开发流程 配置方式提高代码运行效率 1月1.20月0% 3月4月5月6月7月8月9月10月11月12月android端IOS端 数据资产沉淀-痛点 业务诉求VS面对的问题及挑战 高效率 高质量 高稳定 01数据孤岛(=>复用) 应用层数据联通少,数据开发团队难以应付一旦出现的跨域、跨业务需求,特别如投放、push、创新业务域引流等横向业务,用户、资源圈层数据服务难度大 02业务迭代频繁(=>高效) 8.0改版、社区业务改版、K歌业务融合,需求较 2019年增长超过90% 03数据交付问题(=>质量) 数据开发过程对业务不透明,需求插入、延期、返工情况较为严重;需求缺乏设计、代码缺乏review、数据缺乏测试 数据资产沉淀-目标 无序到有序,构建“OneData” 社交数 据 播放数 据 需求人 员 活动数 据 付费数 据 策划同 学 运营同 学 数据仓 库 分析同 学 开发同 学 有什么数据?在哪找?找谁?怎么取?一份数据、一个出口、一个口径 数仓的过程是“熵减”的过程,无序到有序 云音乐数仓-主题抽象 过程-主题域划分 主题域划分,适合业务最重要,云音乐主要围绕参与者和内容来构建业务场景闭环 过程-层次划分 模型构建原则 原则:高内聚、低耦合、强复用 •业务相关性:行为归因将社交互动放一起 •产出时间:流量和社交互动分开 •回刷数据:运行方式解耦,增量和历史累计分开 •粒度:轻度汇总尽可能保留多的退化维。维表属性不过多的退化到事实表中,只在最后大宽表进行合并 •资源和存储平衡:1/7/28放在一张表中,去重人数和次数一起计算。 模型构建规范 基于网易数帆模型设计中心落地建模规范 规范先行 • • • • • • • • • • • • • • • • 模型层次调用规范数据域命名规范建表规范 临时表、正式表命名规范 原子指标、派生指标命名规范数据格式规范 数据存储规范作业流规范枚举值规范维度规范 词根规范 公共字段规范 计算指标来源规范指标一致性建设规范交付标准规范 ... 上线机制 •网易数帆测试中心提供了上线前的数据形态探查和数据比对,数据问题上线前先暴露; •流程协作中心提供了上线的审核机制,对于核心模型,必须经评审验收后方可上线生产环境调度 数据资产沉淀-社区业务实践 稳定的架构,大宽表每天6点前产出,提前3小时 指标口径统一、充分质量测试 easyFetch使用热度第一,临时需求爆减 数据资产沉淀-自助服务 服务业务 用户 社区 平台 搜索 流量 1 录入元数据、创建数据模型 2 产品easyFetch迭代,模型迁移 3 easyFetch培训、运营群号 4 用户习惯培养:模型咨询、指标咨询、数据咨询、使用咨询、问题排查 用户对数仓模型、指标很难理解 每周答疑大,最多一周20+次答疑, 思考很花时间 用户对数据质量存疑,经常要花大量 时间校验数据和解决问题 K歌 版权 唱聊 会员 活动 流量 平台 曲库 社区 声波 心遇 用户 直播 1400 1200 1000 800 600 400 200 0 30000 25000 20000 15000 10000 5000 0 2020/1/15 2020/1/24 2020/2/3 2020/2/12 2020/2/20 2020/2/28 2020/3/7 2020/3/15 2020/3/23 2020/3/31 easyFetch使用增长趋势 2020/4/8 2020/4/16 各业务使用次数分布 2020/4/24 2020/5/2 2020/5/10 2020/5/18 2020/5/26 2020/6/3 2020/6/11 2020/6/19 2020/6/27 2020/7/5 2020/7/14 2020/7/24 2020/8/1 2020/8/9 2020/8/17 2020/8/26 2020/9/3 2020/9/11 2020/9/19 2020/9/27 2020/10/5 2020/10/13 2020/10/21 2020/10/29 2020/11/6 2020/11/14 2020/11/22 2020/11/30 2020/12/8 2020/12/16 2020/12/24 2021/1/1 2021/1/9 2021/1/17 120 100 80 60 40 20 次数 人数 0 2021/1/25 数据资产沉淀-成果 建模规范 1.制定《云音乐数据仓库公共规范》,并推动落地 2.抽象5大主题域,并在各主题域下扩展子主题 3.设计数仓架构,明确各中间层的作 用 评审稽核机制 1.建立关键模型上线评审机制 2.建立上线稽核机制,依托easyTest系统,输出稽核报告 3.沉淀公共稽核逻辑&慢SQL特征,与数帆共建CICD体系 机制 数据资产 公共数据资产沉淀 1.用户域,涉及11个角色,2000+用户标签 2.资源域数据建设,涉及10个资源,1000+资源标签 3.活动域数据建设,包含push全流程、H5活动,短信、私信建设中 资产 自助服务 1.上线至今,共计400+用户,常用数据模型100+,周UV180+,周PV7000+ 2.通过自助服务,改变数据交付方式,实现数据交付共享、通用性 3.形成需求、开发、沉淀、再使用数据资产生产闭环 服务 规范 THANKS 合作伙伴: