网易数字+ 网易数字+大 网易数 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 数据生产力最新实践 +大会 网易数字+大会 数字+大会 网易数字+大会 字+大会 2021.10.21 网易郭忆 网易数字+大会 网易数字+大会 目录 网易数字+ 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 网易数字+大会 字+大会 DataOps逻辑数据湖智能调度和运维 安全加固 有数BI性能提升 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 网易数字+大会 字+大会 DataOps 网易数字+大会 网易数字+大会 为什么要去做DataOps +大会 数据开发修改了一个上游任务A,影响了一个下游任务B,而B任务的产�表是一张资损的表,导致业务直接产生资损200W 数据开发任务,没有设计完整的测试用例,甚至没有对数据进行测试,导致任务上线后引入线上BUG,第二天下游报表数据错 网易数字+大会 网易数字+大会 误! 开发和生产环境基础设施隔离,无法使用真实数据进行仿真验证,导致测试结果失真,BUG未能测试🎧,数据�错。 数据研发迭代周期时间长,无法满足业务高频交付的需求 网易数字+ 网易数字+大 网易数 网易数字+大会 网易数字+大会 网易数字+大会 交付时间周期长,交付质量差! 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大 网易数字+大会 网易数字+大会 网易数 DataOps核心诉求 网易数字+大会 +大会 网易数字+大会 网易数字+大会 发布流水线自动化测试发布影响分析数据沙箱 数字+大会 网易数字+大会 字+大会 网易数字+大会 DataOps核心技术 网易数字+大会 网易数字+大会 发布流水线 任务发布数据 网易数字+大会 开发包测试 配置Code 检查Review 影响人工生产 网易数字+大会 网易数字+大会 分析审核发布 +大会 •版本管理 •模型和任 网易数字+大会 务打包 •SQLScan •数据比对 •数据探查 •参数配置 •依赖配置 •CheckList •影响标签 •影响报表 网易数字+大会 •影响API •自定义审 批策略 网易数字+ 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 +大会 网易数字+大会 网易数 网易数字+大会 发布包生成 数字+大会 网易数字+大会 字+大会 网易数字+大会 SQLScan 网易数字+大会 +大会 SQL静态扫描 •跨层依赖:dws/ads/dm直接读取ods层表 网易数字+大会 •全表扫,不带分区 网易数字+大会 •使用固定分区 •对明细表lateralviewexplode •关联Key应该至少是一个表的唯一键,避免笛卡尔积 网易数字+大会 网易数字+大会 •避免使用distinct,使用groupby改写 •避免出现多个fulljoin,fulljoin可以用unionall优化 •注意关联Key在关联各表内的分布情况,典型的情况是空 网易数字+大会 网易数字+大会 值或者0值,避免数据倾斜 •未使用压缩 •禁止select* 字+大会 •临时表任务结束未删除 自定义规则扩展…… 网易数字+ 网易数字+大 网易数 数字+大会 网易数字+大会 网易数字+ 网易数字+大 网易数 数据形态探查 网易数字+大会 网易数字+大会 •枚举字段分布范围 网易数字+大会 •主键是否唯一 网易数字 •字段空值比例 +大会 大会 •字段最大/小长度 网易数字 网易数字+大会 •字段最大/小值 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大 网易数字+大会 网易数 数据比对 网易数字+大会 +大会 •迁移前、迁移后,数据是否一致 +大会 网易数字 大会 网易数字 网易数字+大会 •任务修改前,修改后,数据是否一致 数字+大会 字+大会 网易数字+大会 网易数字+大会 网易数字+ 大会 网易数字 +大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 大会 网易数字 字+大会 影响分析 网易数字+ +大会 网易数字+大 大会 网易数 审核发布 •根据任务影响的下游标签,控制审批策略 网易数字+大会 + •圈选核心任务,控制审批策略 网易数字 •提交人可以看到更改任 +大会 务影响的下游标签 网易数字 大会 网易数字 •圈选核心任务,强制进行数据测试 数字+大会 字+大会 网易数字+大会 数据沙箱 网易数字+大会 开发平台 网易数字+大会 调度集群 网易数字+大会 网易数字+大会 YarnYarn_Dev + 开发模式 Meta Store 生产模式 网易数字+ 网易数字+大 网易数 网易数字 网易数字+大会 HDFSHDFS_Dev 数字+大会 字+大会 网易数字+大会 网易数字+大会 应用成果 网易数字+大会 网易数字+大会 敏捷 交付周期提升1倍 质量 网易数字+大会 网易数字+大会 线上问题数量下降 +大会 网易数字+大会 网易数字+大会 90% 网易数字+ 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 网易数字+大会 字+大会 逻辑数据湖 网易数字+大会 网易数字+大会 为什么要做逻辑数据湖? 网易数字+大会 +大会 上万个基于Oracle的存储过程,全部迁移到Hive成本太高 数据量本身并不大,基于Oracle运行稳定,没有迁移的需要 原有系统,缺少数据管理的能力,也需要纳入中台 网易数字+大会 网易数字+大会 管理 平台分裂,缺少统一的管控、协调 网易数字+ 网易数字+大 网易数字+大会 网易数 网易数字+大会 数字+大会 字+大会 网易数字+大会 网易数字+大会 网易数字+大会 逻辑数据湖目标 网易数字+大会 +大会 网易数字+大会 网易数字+大会 整合基础设施 统一数据管理 可扩展架构 网易数字+ 网易数字+大 网易数 网易数字+大会 数字+大会 网易数字+大会 字+大会 网易数字+大会 网易数字+大会 逻辑数据湖架构 网易数字+大会 网易数字+大会 统一数据开发 统一数据治理 统一查询分析 +大会 网易数字+大会 网易数字+大会 统一元数据采集 统一数据标准制订 统一数据源登记 网易数字+大会 网易数字+大会 MPPKV Hadoop RDBMSHTAP 网易数字+ 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大 网易数 逻辑入湖 网易数字+大会 网易数字+大会 •明确数据源Owner •申请数据源权限 网易数字+大会 网易数字+ +大会 •分配数据源账号 +大会 •管理元数据采集范围 网易数字+ 网易数字+大会 •采集任务的监控 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数字+大会 网易数 网易数字+大会 数据开发 数字+大会 网易数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 大会 网易数字 +大会 网易数字+大 +大会 + 网易数 网易数字+大会 数据发现 数字+大会 网易数字 字+大会 网易数字+大会 网易数字+ 网易数字+大会 +大会 +大会 网易数字+大 +大会 网易数 自助分析 网易数字+ 数字+大会 网易数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数 +大会 数据质量 数字+大会 字+大会 网易数字+大会 浙江电信 网易数字+大会 网易数字+大会 指标系统模型设计中心数据质量中心数据资产中心 网易数字+大会 网易数字+大会 元数据中心 数据安全中心 数据地图 数据服务 网易数字+大会 数据集成中心数据开发中心数据测试中心任务运维中心 +大会 网易数字+大会 流程协作中心 网易数字+大会 CDH1 CDH2 Vertica Hadoop 网易数字+ 网易数字+大 网易数 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 网易数字+大会 字+大会 智能调度和运维 网易数字+大会 网易数字+大会 运维面临的挑战 网易数字+大会 +大会 几十万任务,任务数量大 任务上下游依赖关系复杂,最多的20+层 起夜率高,团队不稳定任务诊断困难,依赖人 网易数字+大会 网易数字+大会 工经验 网易数字+ 网易数字+大 网易数字+大会 网易数 数字+大会 网易数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大 网易数 基线预警 网易数字+大会 网易数字+大会 基线:基于任务的产 �时间和任务的优先级构建 网易数字 +大会 +大会 优势能力: •基线预警 •资源排队+任 +大会 务血缘 网易数字+大会 •精度可以做到10min内 网易数字 •基线诊断 •关键路径 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大 +大会 网易数 值班组 •值班组排班机制 网易数字+大会 大会 •主呼与被呼 +大会 网易数字 •报警升级 网易数字+ 数字+大会 网易数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大 网易数 任务智能诊断 网易数字+大会 •沉淀异常诊断300+ 网易数字+大会 网易数字+大会 •异常覆盖率80% +大会 网易数字+大会 网易数字+ •正向反馈50% 数字+大会 网易数字+大会 字+大会 网易数字+大会 任务智能诊断 网易数字+大会 网易数字+大会 网易数字+大会 网易数字+大会 凌晨00:30值班人员收到基线预警,6:30基线预计破线! 凌晨00:45 值班人员上线,系统对任务进行自动诊断,发现队列阻塞导致任务延迟,停止非核心任务,加大队列资源 构建6条基线精细化运维,首次实现大促零延迟,基线平均完成率达到96.14%! 网易数字+ 网易数字+大 网易数 +大会 网易数字+大会 网易数字+大会 网易数字+大会 凌晨01:216:30基线预警消失,任务已追上!一次事故被 扼杀在摇篮中…… 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大会 网易数字+大会 +大会 网易数字+大 网易数字+大会 网易数字+大会 网易数字+大会 数字+大会 网易数 网易数字+大会 网易数字+大会 字+大会 数据安全加固 网易数字+ 网易数字+大 网易数 一次次血淋淋的教训 网易数字+大会 网易数字+大会 开发使用hivebeeline执行createdatabasexxxlocation'/user/holmes/hive_db'及dropdatabasexxx操作,导致/user/xxx/hive_db被删除。 网易数字+大会 网易数字+大会 网易数字+大会 差点全军覆没 +大会 网易数字+大会 网易数字+大会 开发通过spark任务override/user/xxx路径 数字+大会 字+大会 网易数字+大会 网易数字+ 网易数字+大 网易数 数据安全的三重防护 网易数字+大会 网易数字+大会 目录冻结:核心目录rename\delete均会提示异常 网易数字+大会 网易数字+大会 网易数字+大会 回收站:预留集群级别