共识之下:网易大数据生产力的落地之路 网易大数据章泽文 Agenda •一条开发明线与一条数据治理暗线 •网易有数五大能力特色实践 •有数学堂:数据生产力的软着陆之路 •未来之路 数智化的核心是打造数据生产力 数据中台 数据中台 提供高质量、高效率、低成本的数据 数据产品 基于数据中台提供的数据,持续监控业务异常,分析诊断,产生决策建议,应用于业务系统 原始数据 (低质量) 业务系统 数据生产力 加工数据 (高质量) 数据产品 业务决策 网易有数数据生产力产品体系 数据应用 数据门户 BI中国式报表 决策引擎 自助取数 CDP (智能营销) 算法开发平台 数据文化分享中心 标签工厂 数据中台 指标系统模型设计中心数据质量中心数据资产中心 元数据中心 数据安全中心 数据地图 数据服务 数据集成中心 数据开发中心 数据测试中心 任务运维中心 流程协作中心 数据研发 Hadoop MPP (Greenplum、Clickhouse ) HTAP (TiDB,TBase) KV&MQ RDBMS (MySQL、Oracle ) 计算&存储 开发主线与数据治理支线 数据测试中心 数据标准中心 数据测试中心 数据测试中心 数据传输 开发主线 指标系统 数据传输 模型设计中心 自助分析 离线开发 数据服务 需求阶段 准备阶段 任务运维 元数据&数据地图 设计阶段开发阶段 有数BI 流程协作与通知中心 交付阶段 全局辅件 安全中心 数据资产中心 Agenda •一条开发明线与一条数据治理暗线 •网易有数五大能力特色实践 •有数学堂:数据生产力的软着陆之路 •未来之路 01规范 02生态 统一指标管理逻辑数据湖 03效能 04稳定 数据沙箱 05成本 数据资产360 基线智能预警 统一指标管理:初步构建共识 查找指标口径、数据来源、计算逻辑很困难 为什么指标口径难以管理? 指标口径缺少统一管理 统一管理带来的效率和管理成本 数据应用没有使用指标系统的口径 黑马先行:收口业务指标口径 •指标多版本管理 •指标引用关系分析 •数据产品通过API引用指标系统指标口径 •维护指标和数据应用的关系 •自定义指标模板 •面向不同的人群展示不同的指标内容 •指标权限管理 白马争先:同步指标域&业务数据资产沉淀 •同步数仓域:借助数据团队成果 •结果表字段与指标关联:消解指标二义性 指标系统应用效果 •考拉从824个指标缩减到423个指标 •覆盖13个数据产品 •华夏理财、德邦物流等落地 逻辑数据湖:让数据中台与底层计算存储解耦 平台分裂,缺少统一的管控、协调 为什么要做逻辑数据湖? 上万个基于Oracle的存储过程,全部迁移到Hive成本太高 数据量本身并不大,基于Oracle运行稳定,没有迁移的需要 原有系统,缺少数据管理的能力 ,也需要纳入中台管理 数据中台:基于逻辑数据湖构建统一平台 统一数据开发 统一数据治理 统一查询分析 统一数据源统一元数据 统一算、管、用 MPP KV Hadoop RDBMS HTAP 统一元数据服务 数据探查 数据建模 数据开发 数据稽核 数据逻辑入湖 逻辑入湖 登记数据源 确定数据源 Owner 注册元数据 分配账号,建 立映射 任务运维 数据服务 数据资产 指标系统 按需使用 申请数据源 权限 数据集成 数据地图 数据安全 物理入湖 逻辑数据湖核心技术——数据血缘 任务提交上线解析SQL获取输入和输�表用户可以自行调整 血缘生命周期 注入元数据中心 调度系统获取血缘 任务实际执行 逻辑数据湖 浙江电信方案 指标系统模型设计中心数据质量中心数据资产中心 元数据中心 数据安全中心 数据地图 数据服务 数据集成中心 数据开发中心 数据测试中心 任务运维中心 流程协作中心 CDH1 CDH2 Vertica Hadoop 数据沙箱:数据和代码解耦 数据沙箱 • • 客户希望有开发环境,预发布环境和生产环境三套物理完全隔离的环境。 开发环境提供给开发人员(部分外包)完成日常代码开发,预发布环境,提供给运维人员进行 上线前验证,生产环境使用生产账号运行。 数据研发平台 (开发) 数据研发平台 (预发布) 数据研发平台 (生产) 任务包括调度导� 任务包括调度导� Hadoop Hadoop Hadoop 离线开发平台(生产) 开发模式 生产模式 数据沙箱 离线开发平台(开发) 开发模式 生产模式 开发环境联调环境预发布环境生产环境 测试中台 中台产品(2台虚拟机) 离线开发平台(1台物理机) 线上模式 开发模式 读写 读写 其他底层组件需要混部在物理机中 HiveMetastore 测试集群(3台物理机) 流程协作中心 数据沙箱 生产中台 流程协作中心 中台产品(4台虚拟机) 离线开发平台(2台物理机) 线上模式 开发模式 任务发布 读写 读写 读 线上集群 (13台物 理机) 预发集群 (6台物理 机) HiveMetastore 其他底层组件需要混部在物理机中 数据沙箱 •代码根据运行环境自动适配 •对用户来说完全透明,不必改代码 基线智能预警:不要温柔地走进那良夜 任务诊断困难,依赖人工经验 基于基线的智能运维体系 几十万任务,任务数量大 任务上下游依赖关系复杂,最多的20+层 起夜率高,团队不稳定 基线运维 基线:基于任务的产�时间和任务的优先级构建 优势能力: •基线预警 •资源排队+任务血缘 •精度可以做到10min内 •基线诊断 •关键路径 构建6条基线精细化运维,首次实现大促零延迟,基线平均完成率达到96.14%! 基线运维 值班人员收到基线预警,6:30基线预计破线! 凌晨00:30 值班人员上线,系统对任务进行自动诊断,发现队列阻塞导致任务延迟,停止非核心任务,加大队列资源 凌晨00:45 6:30基线预警消失,任务已追上!一次事故被扼杀在摇篮中…… 凌晨01:21 全局血缘 •快速感知任务血缘关系,在极短时间内定位问题所在 加速器、冻结池 •在不同场景下决定是踩下一脚油门还是一脚刹车 数据资产360:公司的一本帐 数据只管上线,不管下线 低频冷数据占用了大量存储空间 计算任务未调优 数据存储没有有效的治理(生命周期、压缩) 为什么成本增长这么快? 治理的方案 为什么需要资产360 运动式治理 治理的价值 如何“常治久安”如何量化治得好做什么&怎么做 如何找到治理“抓手” 价值如何让业务方看得见 先做哪个后做哪个 数据资产360 安全分 数据安全等级、数据权限治理 资产分 标准分 基于内部对指标 、模型的规范化 定义 成本分 将数据成本精算到数据应用级别 质量分价值分 覆盖多少稽核规则 ,有多少强规则、 弱规则 评估每个数据模型、数据报告 、API的价值 数据资产360 •资产一览无余,存储&计算主题条分缕析公司的成本去向 资产管控抓手:运动化治理 •资产治理红黑榜:没治理的别想跑! 网易成本治理的效果 •严选节约200W+,云音乐节约500W+ 数据安全:一体化权限申请流程 网易安全能力 •行、列级别权限控制 •一站式权限申请流程 •Spark权限控制 •目录冻结 •权限生命周期 •权限治理 •自定义审批流 数据治理组织形式:剑宗VS气宗 业务指标 业务场景 数据开发与治理:剑宗VS气宗 元数据注册 数据标准梳理 • • • • 重数据调研 人员能力要求高,容易�现断层 数据探查能力强数据治理全面但周期长,较难短期见 到成效 • • • • 常以单数据域展开 人员依赖培训,但有较好的成长性业务价值较易呈现 ,但数据探查能力弱 依赖较高的sop标准 数据标准梳理 元数据注册 维度建模 数仓分层搭建 VS 维度建模 数仓分层搭建 任务开发 业务指标 业务场景 任务开发 Agenda •一条开发明线与一条数据治理暗线 •网易有数五大能力特色实践 •有数学堂-数据生产力的软着陆之路 •未来之路 一个数据人员的升级之路 2~3weeks1week(可后续自行组织) 布道师实操培训 产品部署完毕 专题教学课程视频 布道师集中答疑 上机操作实验 学堂考核认证 数据开发工程师等级认证 能力等级 岗位 建模能力 分析能力 技术能力 应用能力 L1 数据开发工程师 维度建模基础理论 掌握指标、分析维度基本概念 SQL开发 完成模块需求 L2 高级数据开发工程师 单主题域 常见分析方法分析模型构建 任务优化,复杂任务开发 完成复杂数据产品需求 L3 资深数据开发工程师 多主题域 指标口径管理 疑难问题定位解决 发现产品问题,推动产品落地 L4 数据开发专家 中台体系 对业务有指导意义指标 技术架构选型 规划数据产品体系 数据治理+可视化大赛 Agenda •一条开发明线与一条数据治理暗线 •网易有数五大能力特色实践 •有数学堂-数据生产力的软着陆之路 •未来之路 数据标准:数据治理的管理与执行 使用场景概述 标准发现标准发现标准执行标准评估跟踪 数据探查结果分析标准提取 MVP 数据项标准管理 数据元 数据标准核心 数据字典 规范模型数据要求 …… 数据开发 指标系统 数据质量管理 标准模型设计 指导质量检测规则定义对维度、指标的统一描述指导数据开发处理方法 数据地图目录 …… 标准比对 影响分析 标准统计 标准审核 标准发布 元数据中心 其他标准管理 标准文件 已存在的标准 元数据标准管理 分类维度 元模型 指导资产组织方式统一元数据 1.定义优化 -标准描述项 2.范围优化 -标准覆盖内容 2.标准沉淀 -通用标准 -行业标准 1.执行情况 -标准资产情况 -标准化情况 -标准使用情况 1.数据开发 -数据定义、处理 2.数据质量 -数据稽核、报告 3.数据安全 -数据脱敏、加密 1.元数据标准 -模型、分类标准 2.数据标准 -数据元、字典 3.标准流程 -标准生命周期 -标准发布 1.已有标准 -标准文件 -结构化标准 2.无标准 -字段类型、格式 -字段值域 核心抓手 优化标准 反馈标准 执行标准 管理标准 发现标准 路径 数据标准中心 愿景:让数据处理有据可依 使命:规范数据治理全流程,保证数据的规范化管理及产出 行业标准划分 标准影响分析 安全规则绑定 字典管理 标准提取 通用标准划分 标准引用统计 稽核规则绑定 发布管理 数据元管理 结果分析 标准版本规划 标准化率统计 处理规则绑定 分类管理 数据探查 基础条件 标准解析 元模型管理 审核管理 模型定义规约 标准资产统计 描述性自定义 What’smore? 以客户为师,心怀敬畏,我们正年轻! 2006 2014 2018 2020 分布式数据库、分布式文件系 大数据平台猛犸、网易有数上线 网易严选、考拉、音 网易提🎧“数据生产力” 统、分布式搜索引擎,三驾马 ,加速了大数据规模化应用 乐、新闻等业务相继 理念,倡导“人人用数 车支撑了网易互联网2.0时代 开始数据中台构建 据、天天用数据” 的产品 2009 国内最早一批开始基于Hadoop开发、运维的互联网公司 2017 网易大数据正式对外商业化 2019 网易发布“全链路数据中台”解决方案 计算&存储:拥抱开源,强于开源 200P 存储规模 6000 物理节点 20W 调度任务 2021年6月21日,全球顶级开源组织Apache基金会宣布,网易数帆开源大数据项目以全票通过的表现,正式进入Apach基金会孵化器。 •Spark社区3.0全球个人排名第二(网易数帆姚琴 ) •ImpalaCommitter,Impalaoniceberg主要贡献 •Hadoo