网易数字+ +大会 网易数字+大 网易数 网易数字+大会 网易数字+大会 2021网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 云音乐数据治理 网易数字+大会 网易数字+大会 雷剑波 数字+大会 字+大会 网易云音乐数仓负责人 网易数字+大会 网易数字+大会 目录 网易数字+大会 网易数字+大会 网易数字+大会 数仓概况 数据规范 埋点治理 资产治理 网易数字+ +大会 网易数字+大 网易数字+大会 网易数 网易数字+大会 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 数字+大会 网易数 字+大会 1 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 数仓概况 网易数字+大会 网易数字+大会 为什么要数据治理? 网易数字+ 数仓概况 问题与挑战 网易数字+大会 •埋点定义混乱 •埋点质量问题多 •埋点信息不够全面 •无设计模式 网易数字+大会 网易数字+大会 •数据凌乱 网易数字+大会 网易数字+大会 数据•烟囱式开发规范 数据生产 数据 网易数字+大会 资产•开发周期长&交付质量差 网易数字+大会 •计算与存储成本迅速增长 +大会 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 网易数 数仓概况 整体情况 网易数字+大会 网易数字+大会 •业务场景复杂:云音乐主站(音乐、视频、播客、社交)、直播、声波、唱聊、心遇 •运维工作重:调度任务数1w+ 网易数字+大会 网易数字 网易数字+大会 网易数字+大会 网易数字+大会 •数据体量大:TB级日志增量,TB级业务数据库单表 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 数字+大会 网易数 字+大会 2 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 数据规范 网易数字+大会 网易数字+大会 建章立制是基础:设计规范&开发规范 网易数字+ 数据规范 问题与挑战 网易数字+大会 网易数字+大会 缺乏顶层设计 •需求导向,复用率低,跨层引用 •重复开发,数据杂乱 网易数字+大会 网易数字+大会 网易数字+大会 数据孤岛稳定 •按业务划分,相对独立,难以应付跨业务需求 •缺少公共数据资产沉淀 效率质量 +大会 网易数字+大 网易数 网易数字+大会 网易数字+大会 数据质量 •准确性、稳定性、时效性 •一致性问题,如活跃、留存、CTR 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 网易数 数据规范 设计规范 网易数字+大会 网易数字+大会 高稳定 •数据域划分:业务形态、实体关系表达 •核心:参与者(人)+服务及产品(坑位+资源) 网易数字+大会 大会 网易数字 大会 参与者 网易数字 事实 协议 流量+互动+支付 网易数字+大会 网易数字+大会 服务及产品 数字+大会 字+大会 网易数字+大会 网易数字+ 数据规范 开发规范 网易数字+大会 •直接读写文件 •SQL+API+打包 网易数字+大会 •多表多任务合并在一个workflow •多workflow间数据检查依赖 •读写表 网易数字+大会 •公共模型纯SQL,SQL规范 网易数字+大会 •一个workflow只输出一个正式表 优化任务管理 提高开发效率 完备数据血缘 网易数字+大会 网易数字+大会 •开发平台跨流任务依赖 +大会 网易数字+大 网易数 简化任务分析 数字+大会 网易数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 网易数 数据规范 开发规范 网易数字+大会 网易数字+大会 DQC数据质量控制 •模板规则 •表主键唯一 •表行数 网易数字+大会 •字段空值检查 网易数字+大会 •字段枚举值检查 网易数字+ •波动率 •…… •自定义规则 网易数字+大会 网易数字 异常发现异常阻塞 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 +大会 网易数字+大 大会 网易数 大会 网易数字 数据规范 网易数字+大会 +大会 流程管控 网易数字 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 数字+大会 网易数 字+大会 3 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 埋点治理 网易数字+大会 网易数字+大会 解决数据源头问题是关键:技术方案&流程管理 网易数字+ 埋点治理 问题与挑战 网易数字+大会 格式凌乱 字段含义不统一规则含义不精确 网易数字+大会 管理平台功能单一,埋点查找困难 质量低下 网易数字+大会 上线较为随意,多错漏难以检查 网易数字+大会 面向单次需求开发,新老埋点相互影响埋点问题造成的数据异常频出 网易数字+大会 开发效率低 网易数字+大会 人工SPM编码&ETL数据需求直接从原始日志解析业务数据加工复杂(归因分析) 看数困难 无法支持自动化取数看数无法支持精细化指标产出 网易数字+大会 取数平台?流量罗盘?更新繁琐周期长 +大会 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 网易数 埋点治理 技术方案 网易数字+大会 网易数字+大会 客户端SDK •埋点生产标准化 •对象化(SPM+SCM) 网易数字+大会 大会 •对象逻辑树(对象复用) 网易数字+大会 •归因能力(refer) 网易数字 •埋点格式:扁平JSON->嵌套JSON •全局公参 •事件参数 网易数字+ 网易数字+大会 •对象标准参数 •对象业务参数 数字+大会 字+大会 网易数字+大会 网易数字+ 埋点治理 技术方案 网易数字+大会 网易数字+大会 refer=SPM+SCM _sidrefer上一次冷启动会话ID 渠道归因内容归因搜索归因策略归因 _psrefer页面对象创建(首次曝光)的来源对象 网易数字+大会 网易数字+大会 _pgrefer页面对象访问(每一次曝光)的来源对象 网易数字+大会 _hsreferApp内消费起始的来源对象 _multirefers行为链路的5级页面的_psrefer顺序拼接 _addrefer触发内容添加到播放列表的来源对象 网易数字+大会 网易数字+大会 _playrefer触发内容单次播放的直接来源对象 _rqrefer触发服务端请求的来源对象 +大会 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数 网易数字+大会 大会 埋点治理 网易数字+大会 网易数字+大会 流程管理 数字+大会 网易数字 字+大会 网易数字+大会 网易数字+ 埋点治理 预期成效 网易数字+大会 网易数字+大会 网易数字+大会 曙光埋点应用 网易数字+大会 网易数字+大会 A 网易数字+大会 不需要再人工进行坑位标准化,所见即所得,埋点上线后直接用于数据分析、数据产品等 B 网易数字+大会 归因链路不需要再人工梳理和单点开发,埋点上线后携带多种归因字段,精确的位置和资源信息,支持实时归因 C 埋点质量提升,埋点时机口径标准化,多端一致,上线流程优化 +大会 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 数字+大会 网易数 字+大会 4 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 资产治理 网易数字+大会 网易数字+大会 降本提效是核心:数据流治理&生命周期治理 网易数字+ 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数 网易数字+大会 资产治理 网易数字+大会 网易数字+大会 问题与挑战 计算 资源占用率80%+,任务数半年增长15%+任务延迟 存储 日均增长0.4%,90%的表无引用过期数据管理 数字+大会 字+大会 网易数字+大会 网易数字+ 资产治理 数据流治理 网易数字+大会 网易数字+大会 合并 分层模型数据流单任务内数据流 网易数字+大会 网易数字+大会 网易数字+大会 数据产品 数据指标需求 ADS 可沉淀的公共数据 自定义多维分析 不可加指标自定义规则标签 DWSDWD 网易数字+大会 客观事实派生指标 原子指标 多团队一致复杂指标 多维分析 拆分 网易数字+大会 优化执行过程,降低任务失败/延迟恢复 成本 多余的任务启动&IO过程导致效率下降 +大会 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 网易数 资产治理 网易数字+大会 数据流治理 网易数字+大会 减少10个ADS中间表沉淀50+指标到CDM 网易数字+大会 网易数字+大会 网易数字+大会 缪斯平台400+标签 网易数字+大会 网易数字+大会 单表耗时最高减少30%+整体产出时间提早2h+ 数字+大会 字+大会 网易数字+大会 网易数字+ 资产治理 网易数字+大会 网易数字+大会 治理成果 数据流治理 任务治理 存储治理 网易数字+大会 表下线 6700+ 任务下线 网易数字+大会 240+ 存储减少 网易数字+大会 网易数字+大会 10P+ 成本节省 网易数字+大会 87万 +大会 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ +大会 网易数字+大 数字+大会 网易数 字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 THANKS