字节跳动一站式数据治理架构实践 基于数据驱动的分布式治理 王慧祥 字节跳动全域数据治理负责人 目录 •机遇与挑战 •字节数据治理理念 •分布式数据治理架构及实践 •数据驱动治理 •智能化治理探索 •总结&未来展望 01机遇与挑战 01 02 03 04 治理效益与业务影响的矛盾 业务系统、生产流程改造影响业务 需求难统一,全局策略难落 保障治理大目标,无法顾及业务个性需求 ROI评估:治理收益、时间周期、业务影响 治理涉及的组织和管理难度大 角色多、范围广、链路长 治理目标对齐、管理、跟进难度大 组织越复杂,数据治理难度越大 规范“人”的动作难度大 人员能力参差不齐,对齐目标和优先级困难 治理操作依靠人,规范对人的偏差操作容忍度低 组织文化差异,数据治理落地的方法、挑战、成效各异 缺乏适配性强的产品工具 现状、问题客观工具缺失 无全局视角工具,直接跳入治理细节 跨部门、跨系统治理目标对齐、协商缺乏治理全流程工具 平台工具不够灵活,只能解决通用治理问题 文化与效率、业务第一 业务要求 多业务齐发展 业务快速发展快速响应业务需求 敏捷迭代 OKR文化 每个人都可参与规划与策略制定分解主动寻找实现路径互相对齐 组织快速前进 高效治理 没有集团层面的数据治理委员会各部门采取自决策自治的数据治理模式 决策与执行效率很高 规模大 业务场景丰富 •互娱 •电商 •商业化海量数据 数据驱动 资产数据盘点,体系建设 •资产元数据,特征、标签 •资源使用,存储、计算 •工具,操作及收益 经验数据反哺,算法推荐 影响大 业务影响 •数据延迟 •质量问题 •数据生命周期 02字节治理理念 传统式治理分布式治理 目标一刀切、自上而下、运动式目标多元化、灵活自治、常态化 组织与制度 •梳理业务与数据部门,设立公司级别数据治理委员会/部门 职权与管理 •定期梳理公司数据资产,确保资产归属与治理权责明确 成果抽查 •组织定期检查业务治理过程是否符合制度,定期检查治理结果 •业务自决策,各级业务/个人都可自驱治理 业务影响小 •工具灵活,业务根据自身发展按需,治理助力业务发展 周期短,见效快 •以业务为目标对齐优先级 •确认核心数据问题,聚焦投入,非“一刀切” 效率高,省人力 •业务内治理目标对齐 •实施、追踪、核算工具化 •低门槛与算法推荐:业务自驱分析与诊断,自驱优化治理 •产品横向沉淀业务治理经验,治理规则、策略共享 业务影响小、治理效率高、适配性强 业务影响小-灵活的自治模式 •治理是不同业务与阶段的实践,在规范与组织上应足够灵活,业务可自身发展阶段制定治理内容,自行对齐与制定部分治理标准,互相对齐形成自驱组织 •“一个业务单元内的数据有效性提升为数据治理的范围和目标” 沉淀各业务治理经验,提升治理效率 •产品辅助业务自驱,沉淀业务经验规则化、策略化、自动化进行持续的数据治理 •低门槛与算法推荐:业务自驱进行分析与诊断能力,算法赋能治理提效 •提供自上而下的规划式治理和自下而上的响应式治理 适配性强-产品建设覆盖治理全链路 •从治理规划到执行诊断与复盘全流程进行治理把控。集成多种治理场景-稳定性、质量、安全、成本、报警 •各模块可独立使用,按需组合,满足不同业务场景下的数据治理需求 •产品提供完整的开放能力,业务根据自身特性和发展阶段进行接入 基础能力层 收益核算 存储量/任务量/vcore… 优化工具集TTL/温存/申报SLA… 治理规则引擎统计规则/算法规则 Metadata仓库表/任务/报警… 管理角色治理推动角色治理执行角色 健康分体系SLA大盘资产大盘报警大盘 存储/计算/质量…就绪情况/延迟趋势…数量/资源用量/成本…趋势/起夜率/根因… 部门/项范围域队/个人目标域规则域消息域资目/数据团库提升健康分存储/计算治理规则SLA报警 数仓源组/队列//成本降低存储/计算资源质量治理规则任务运行报警 层级/优先级优化资产数量…安全治理规则…质量规则报警…Top… 健康分驱动健康分扣分分析问题定位实施治理健康分更新 规划驱动确定范围设定目标选取规则执行诊断消息触达实施治理进展更新响应驱动报警订阅问题处置根因登记复盘总结大盘分析 治理用户层 治理评估层 治理方案层 流程框架层 数据驱动规划治理 智能推荐 开放能力 资产清晰规则丰富动线完整收益准确 •数据治理的基础 •对全域数据进行维度划分、打标及相关指标计算 •根据资产特征生成 •根据资产指标生成 •根据治理手段生成 •管理者视角 •推动者视角 •实施者视角 •评估体系达标 •成本缩减 •优化性能 03分布式数据治理架构及实践 最小的业务打扰 高效的组织形式 业务单元内制定目标,配合使用常态化及规划式诊断,构建业务自治体系 灵活配置推进治理的业务单元,自下而上人人参与数据治理 治理评估 资源大盘 治理分析 SLA大盘 报警大盘 计算/存储健康分 业务单元(划分资产) 治理效果跟踪 业务方向 (划分人员) 删表 合并小文件 温存 参数优化 TTL 关闭任务 业务单元内 原子操作能力 跨业务单元(平台级) 专 操作pipeline(自动化) 家连续7天 知 识沉淀 通知 回收权限 删表/任务 温存等待7天通知物理删除 自动治理方案 自定义规则 迭代 系统规则池 治理方案 专项治理 沉淀常态化规则 规则管理 日常扫描 无效资产 低效资产 消息推送 工作台 低ROI资产 质量健康分实时健康分自定义健康分 治理看板/排行榜 治理大盘 业务看板嵌入 最高的执行效率 沉淀专家知识及智能化工具,执行经验的传承与协同,不断提高自动化水平 自定义治理、常态化治理 制定诊断方案推动方案资产干系人治理 推动者/执行者视角 实施者视角 2 使用规划诊断能力,根据资产 维度、标签、相关指标等信息圈选数据资产,预设目标,完成时间创建方案 4 通过治理操作明细,在治理过 程中管控治理进度,并根据阶段性目标校准治理策略(激进OR稳妥) 1 3 5 通过治理全景、业务目标、数 据运营资产推送信息,发现资产问题 使用平台工具,如TTL调整、 删表、转温存、参数优化、任务下线等手段,实施治理操作 方案完结后,核对收益是否符 合预期,评估治理工作,并复盘治理问题 业务目标资产大盘治理全景日常观测 治理新方向 Y N 常态化治理跟踪 规 N则 分析诊断沉 淀 制定策略圈选资产设定周期跟踪治理效果调整规则 规则/元数据管理Y 诊断方案 治理操作入口 数据运营推送个人健康分 个人工作台诊断明细 成本优化SLA治理 查看操作明细治理效果跟踪 资产状态Review 治理手段 治理工具 •下线任务 •手动调整参数 •设置表TTL •删表 •补充元信息 •低热度表转温存 •降副本 •小文件合并 •引擎工具任务参数优化 命中操作1:预计收益a max(a,b) 资产A预计收益a 命中操作2:预计收益b sum(a,b) 规则总收益 命中操作1:预计收益c max(c,d) 资产B预计收益d 命中操作2:预计收益d 资产A 预估收益有多少? 资产B 命中规则x,y操作1:预计收益a 命中规则x的操作2:预计收益b 命中规则z的操作3:预计收益c 目标如何设置? 治理ROI如何? 资产A max(a,b,c) 预计收益c 目标配置提效 资产B 资产C max(e,f) 命中规则y的操作1:预计收益e 命中规则z的操作3:预计收益f 命中规则x的操作1:预计收益g 命中规则y,z的操作4:预计收益h max(g,h) 预计收益e 预计收益g sum(c,e,g) 规则总收益 集中式:平台集中建设规则数据及治理手段 • • 研发人力投入成本高 很难匹配所有业务的需求 分布式:数据开放、规则开放、治理操作开放 • • • 满足个性化诊断治理需求 规则迭代稳定后沉淀到平台,实现共赢 操作开放,业务自定义组合pipeline,满足精细化治理 开放能力建设 自助接入方法、灵活定义参数 精细化治理 自定义元数据、规则逻辑 个性化需求 存储、计算、质量、安全 治理场景 80+ 默认规则 工作台规划诊断 治理产品模块 治理全景健康分体系 开放接口/数据 规则库 事前检测规则事中监控规则 事后治理规则 系统规则、自定义规则元数据管理 治理数据 (健康分、治理收益、诊断明细) 方案配置 (增删改) 开放插件集成 治理主数据管理元数据接入 治理操作 规则配置 (增删改) 系统数仓 离线实时 业务 自定义元数据 元数据配置 (增删改) 收益数据自动化收集 结果(评估/收益)标准化: 计算 数据平台治理 操作事件 Topic 明细埋点 数仓离线APP层 参数优化生命周期存储资产域 …小文件合并计算资产域 前端上报 •内存节约量/利用率 •CPU节约量/利用率 •产出小文件数量 事件中心 操作实时同步模块 APIServer 来源明细埋点模块 收益离线更新模块 计算收益元数据 存储收益元数据 •… 存储 •节约物理存储量质量&安全: •质量监控治理数 基础元数据 操作明细 •安全风险处置数 删表 … 生命周期 任务关闭 操作来源治理场景旁路打标 格式转换(统一化表达) 关联操作扩展元数据 收益明细 思路:操作实时同步、收益离线更新、埋点旁路打标 资产大盘 治理评估 治理方案 诊断明细 收益进展 结果衡量 治理工具 业务单元配置 数据查询服务 规则管理服务 资产诊断服务提交 元数据注册 目标管理 TaskGenerator 规则配置 开放规则 AnalyzeEngine 状态管理 心跳\状态上报 规则解析 结果汇总 收益同步 规则调度 DQLParser 结果返回 HiveAdaptor CH Adaptor MysqlAdaptor SourceAdaptor ETL 收益收集 旁路打标 操作收集 事件中心 治理工具箱 生命周期配置 参数优化 TaskExecutor 业 小文件合并 操作务 删表 … 数据 Mysql HIVE ClickHouse MessageQueue HDFS|HMS|YARN|离线调度系统|SPARK|FLINK 离线同步 上报 结果 操作 存储介质 04数据驱动治理 如何高效定位资产问题 盘点资产数据,构建完备的元数据组织方式, 通过特征、标签描述元数据,根据不同场景设计治理策略(存储、计算等) 如何高优治理业务资产数据 构建全公司的治理评估体系,提炼核心资产问题项通过对资产打标,可快速定位高优待治理资产 资产体系 01 04 评估 体系 02 经验 复用 03 规则 体系 如何快速完成资产治理 挖掘、沉淀并复用治理经验 通过往期治理经验,并对行为埋点数据分析,智能推荐治理目标 数据驱动闭环 任务运维 Yarn/Spark HDFS HMS 数据管理系统 离线调度系统 分布式治理平台 数据地图平台 治理POC 数据运营 CN VA SG 私有化 公有云 SLA保障 特征 标签 治理规则 健康分 目标推荐 权限控制 DIM APPDMDWMDWD ODS 资产域 成本域 质量域 流量域 权限域 任务域 查询域 治理域 报警域 模型设计 分层体系数据域 质量保障 Oncall答疑 治理全景 大盘、趋势、明细 01.数据分析与展示能力,解释性强,功能丰富 元数据仓库 9大数据主题域 维度划分 团队、项目、资源组 02. 根据数据特征划分不同主题域,提供稳定可靠的维度、指标等 数据采集 业务DB、消息队列、数据推送、数据拉取 03. 全链路保障数据采集,做到数据无丢失、可监控、质量稳定 组件与平台 存储(HDFS|HIVE)、调度(YARN|SPARK|FLINK)、平台(质量监控|研发) 04. 从源头对资产数据打标,血缘脉络清晰,可追踪、可优化 整体评估