|DataFunSummit 2021 有赞数据地图实践 有赞数据地图负责人:何会会 2009.9 (上学) 2016.6 (阿里) 2018.4 (微店) 2020.12 (有赞) future 自我介绍 郑州大学 (本科) 华南理工大 学(硕士) 数据技术产 品部 数据新能源 团队 数据平台 结婚生娃 数据资产治 理 勇于试错、敢想敢做 总结过往、做好当下、不畏将来 目录 CONTENTS 数据地图背景 数据地图概述 数据地图实践 总结展望 01 数据地图背景 数据地图产生的背景 数据地图可以解决那些问题 | 数据管理 数据搜索 数据分析 数据挖掘 故障排查 链路优化 数据地图背景 数据相关的工作过程 数据的流转链路不清晰 找不到想要的数据 无法高效的管理数据 故障排查效率低 链路优化困难 数据采集 数据开发 数据地图的目标 数据地图力图解决以下几个问题: 高效的找到自己想要的数据 方便的查看多种多样的数据血缘信息 高效的对数据进行管理 高效的应对故障(排查、影响面&恢复时间预估) 能够根据不同需求场景看到不同的链路视角 02 数据地图概述数据地图概述 | 数据地图概述 数据 数据的特征 类型全 流通、不孤立 地图 生命周期长 地图的能力 找地点 路径分析 搜周边 管理 数据地图能力 数据地图 搜索 管理 分析 | 03 数据地图实践 数据全链路 数据搜索 数据管理 数据链路分析 | 实践-数据全链路 数据全链路: 数据类型全 任务类型全 平台类型全 元数据类型全 血缘类型全 对数据进行抽象成表和任务进行统一管理,完成了从业务到业务的闭环 实践-数据搜索 搜索的目标: 找数据更精准 搜索结果更匹配 搜索结果进行打分排序 找数据更容易 从业务的角度搜数据 文本匹配 标签匹配 业务指标关联匹配 文档匹配 报表匹配 匹配内容: 结果打分影响因素: 加分项 当前owner 下游数 质量分 访问次数 公共层的表 减分项 设置了替换表 临时表 协作更加 方便 点赞 分享 实时 多人协作 结构化管 理数据 数据 专辑 管理维度 多样化 批量管理 设置权限 下线 保障 拆分 实践-数据管理 ✘Word ✘文本编辑器 ✘webExcel ✘shimo 业务维度 优先级维度 重要性维度 治理维度 用途维度 其他特征维度 实践-血缘查看 最上游&最下游 聚合查看 节点搜索 节点排序 表表血缘 表任务血缘 字段血缘 优化体验 实践-异常分析 当目标表出现异常时,需要排查原因时,就可以用到这个分析场景。 ①向上溯源,找到所有异常的表 ②以有异常的表为源头,经过剪枝优化,将相对简单的路径展示出来 异常分析剪枝算法 剪枝的目的:减少图中的非必要节点和边的数量 优化剪枝的关键步骤: 剪枝的起点 下游选择策略 上游个数最多的节点(当前策略) 最靠近目标表的(可尝试策略) 实践-影响分析&产出时间预估 当核心表出现故障的时候,需要使用这个分析场景,核心流程是: 向下评估影响面 向上预估产出时间 向下评估影响面向上预估产出时间 预估产出时间算法 历史运行时长取的是最近7天的中位数 实践-链路优化 什么场景需要链路优化? 成本太大 链路太长 产出时间太晚 关键路径 表任务血缘看任务启动时间是否合理 表是否可替换(根据字段血缘) 优化表产出时间场景: 定时任务 实践-数据监控保障 扫描调度中心的任务 任务语法 输入表是否存在 输入表的字段是否存在 数据保障 手动触发检测表下游 手动触发 下游任务 下游表 下游字段 04 总结与展望 总结 底层的存储方式重构 更多的场景支持 模型可视化 | 总结 更加流畅 接口RT<1S UV:90->130 PV:2K->3.5K 提效1~3H 数据类型:29 交互 体验 使用 情况 工作 提效 数据 类型 任务类型:16 平台数:4+ 底层存储方式重构 血缘关系的底层存储从关系型数据库使用图数据库来重构 更多场景支持 降本 使用数据地图的能力协助降本 成本优化链路 质量优化 稳定性优化优化 质量对下游应用保障 模型可视化 星型模型&雪花模型 支持更加丰富的模型可视化组件,将数据模型和业务模型直观呈现出来,更加容易和方便理解数据和业务。 业务模型ER模型