网易严选 离线数仓治理实践 主讲人:冯楚网易严选资深数据开发工程师 CONTENT 1 严选数仓大致情况介绍 2 严选数仓整体架构设计 3 主要问题及应对策略 4 治理成果 数字化基础软件自主创新分享周 01 严选数仓大致情况介绍 数字化基础软件自主创新分享周 严选数仓大致情况介绍 用户 财务 营销 商品 供应 交易 完整的电商生态数据 数据量 7.6PB 离线任务数 12871个 C端:业务相对简单数据量大 B端:业务相对复杂数据量小 服务:分析师、业务、产品、业务开发 数字化基础软件自主创新分享周 02 严选数仓整体架构设计 数字化基础软件自主创新分享周 严选数仓整体架构设计 Kimball维度建模 致力于提供统一、稳定、易用的数据入口 数字化基础软件自主创新分享周 03 主要问题及应对策略 数字化基础软件自主创新分享周 主要问题及应对策略 规范 质量 性能 数字化基础软件自主创新分享周 无效表: 历史缺少明确的建模规范,累积了大量不规范的表和任务 规范 主要问题及应对策略 不规范表: 猛犸DA 严选血缘 待下线任务集低风险:集中下线 高风险:确认下线 严选血缘不规范任务集分发待办 制定KPI 数字化基础软件自主创新分享周 质量 主要问题及应对策略 问题: 数据质量保障点状实施,未成体系 CMDB服务分级 数据任务分级 数据任务保障优先级 高优基线任务强制配DQC P0、P1:强制配基线P2、未分级:降低基线优先级 基于数据血缘计算P0、P1、P2、未分级 业务开发手动维护 数据稽核配置无强制要求 策略: 基线值班未区分优先场景 数字化基础软件自主创新分享周 性能 主要问题及应对策略 代码不合理参数不合理 资源参数不合理: 非资源参数不合理、代码不合理: 元数据获取运行时资源情况 申请资源VS实际使用资源 优化资源参数 元数据获取运行耗时 定位异常任务 分发任务优化代码/参数 数字化基础软件自主创新分享周 横向策略 主要问题及应对策略 数据治理落地策略 问题发现(规则) 消息通知(UDF) 治理KPI可视化问题巡检待办分发 产品化建设 治理效果指标计算 可视化报表(有数) 元数据采集元数据采集 治理经验总结 提平台产品需求 系统卡点开环管理 数字化基础软件自主创新分享周 横向策略 主要问题及应对策略 数据治理落地策略 待办分发 数字化基础软件自主创新分享周 04 治理成果 数字化基础软件自主创新分享周 规范 •DWS跨层依赖率21.2%- >17.2% •DWD反依赖率18.1%->12.4% 质量 •重点任务稽核覆盖10%->100% •重点任务基线覆盖100% 治理成果 性能 •资源费用12k/day->4.1k/day •内存memoryseconds下降12% •高耗资源任务运行时间下降90% •高耗资源任务成本消耗下降69% 数字化基础软件自主创新分享周 THANKS 感谢观看