基于⾃动化治理实践驱动数据成本零增⻓ 孙伟 快⼿数据平台部数据治理负责⼈&商业创新数据BP负责⼈ •十多年大数据建设和应用经验,曾就职于百度、阿里,目前在快手负责数据治理和商业创新数据BP团队,专注打造高效的治理工具和可持 续的治理机制,以及建设丰富易用的数据内容赋能业务 关于快⼿数据平台部 使命:提升数据决策效率,利⽤数据助⼒业绩提升 职责:通过⼤数据技术,对公司数据统⼀采集、存储、加⼯和挖掘形成⾼质量全域数据资产,以分析决策产品和服务的⽅式对外提供数据解决⽅案 集群规模 万级 总数据量 EB级 ⽇新增数据量 PB级 任务量 ⼗万级 ⽬录 •数据治理概述 •成本治理⽅案 •⾃动化治理实践 •总结与展望 数据治理概述 质量 成本 数据 治理 架构 安全 •Why:对抗⼤数据系统的熵增,让数据管理有序、可控,以及价值最⼤化 •What:保障数据质量,合理降低数据成本,守住安全红线,优化数据架构 •How:管理+治理,通过有效的评估体系配合组织与流程机制,以及⼯具能⼒,驱动可持续治理 成本治理⽅案:思路 业务⽩盒化 技术⽩盒化(⾃动化) 成本管理 成本治理⽅案:成本元数仓 成本治理⽅案:技术⽩盒化 •计算⽤量公式=任务数X调度频次X申请计算资源数X运⾏时⻓X优先级权重 •存储⽤量公式=单⾏单列存储量X列数量X⾏数量X表数量XEC副本数量 低热模型 0热模型 减表 ⽆下游模型 下线未删除模型 低价值模型 0热⼤字段治理 减⾏减列 埋点上报治理 存储⽤量优化 压缩格式 规范⽣命周期治理 减分区 特殊⽣命周期 减副本 EC 冷存 低热模型 减任务 0热模型 减频次 ⼩时降频 计算⽤量优化 减时⻓ 引擎、SQL优化 减权重 不合理优先级 Top任务优化 少申请 参数优化 成本治理⽅案:技术⽩盒化策略 ⾃动化治理实践:⽣命周期⾃动纠正 ⽣命周期规范 •根据不同数据等级、不同数据分层,结合数据是否可恢复以及恢复的成本制定标准⽣命周期规范 避免误删数据 •通过基础的数据⾎缘,结合数据的查询访问⽇志来判断,并且取最早分区和推荐⽣命周期的最⼤值 通知机制 •三轮通知,过程⽤户可以申请加 ⽩,⽆反馈后,⼀周后进⾏治理纠正 ⾃动化治理实践:0热度表/任务⾃动下线 避免误删数据 •通过基础的数据⾎缘判断下游依赖,结合数据的查询访问⽇志和创建时间判断该表和任务是否真实在⽤ 通知机制 •三轮通知,过程⽤户可以申请加 ⽩,⽆反馈后,⼀周后进⾏治理删除和下线 数据恢复 •对于⾃动下线任务和删除表,⽤户可以在⼯具上进⾏⼀键恢复 ⾃动化治理实践:任务参数⾃动调优(HBO) 通过分析作业历史运⾏指标,以数据驱动的⽅式,⾃动化为每⼀个DAG推断最优的运⾏参数,以减少资源开销、提升运⾏效率 优化资源配额 优化任务分⽚ 优化功能参数 •通过⾃适应扩缩容CPU/MEM,解决资源不 ⾜和分配过⼤的问题 •通过⾃适应调整Map/Shuffle分⽚,解决分 ⽚不够、过多的问题 •通过⼩⽂件合并等参数调整,提升性能 ⾃动化治理实践:增量⾃动化归因 EC ⾃然新增 数据删除 数据增⻓ ⽇新增拆解 ⽣命周期删除 ⼿动删除 数据回溯 冷存 历史补数 影响因⼦拆解 波动与归因 ⾃动化⼯具化 MOLAP KIM推 送 归因、库、 表多维下钻 ⾯临的问题思 路 •降本背景下,存储⽔位处于⾼位(95%) •⽇新增波动较⼤,缺少合理监控,每次 发现很被动与 •波动原因⽆法快速定位,每次排查⼯作⽅ 量⼤,不能快速修复问题案 智能化相似模型检测 ⾯临的问题 •业务烟囱建设导致⼤量相似模型 •难以定义相似模型 •难以计算相似模型 成本治理运营机制 治理收益 成本 • ⼤数据成本节约上亿元 效率 • 治理效率提升N倍 总结 成本优化思路 自动化治理方案 •成本管理(评估、流程、组织) •技术⽩盒化 •业务⽩盒化 •⾃动化⽣命周期纠正(标准规范、⾎缘准确率) •⾃动化下线任务 •⾃动化删除表 •⾃动化参数优化(HBO) 展望未来:规划 •⾃动化治理覆盖提升 •实时资源HBO •业务⽩盒化治理⾃动化诊断 •数据湖治理 NL2ETL 数仓⼤模型 Zero/AutoETL 智能化治理 ⽤户⾏动 数据决策⼤模型 NL2SQL NL2Graph Table2Text 数据 信息 ⾏动 元数据 数据源ClientLogServerLogDBLog 数据管理 数据加⼯ODSDWDDWSADS 数据应⽤数据分析数据挖掘AB 展望未来:思考 基础⼤模型算⼒升级数据源