一、机遇与挑战
数据治理挑战
- 落地难:治理效益与业务影响的矛盾、规范“人”的动作难度大、治理涉及的组织和管理难度大、缺乏适配性强的产品工具。
- 业务系统、生产流程改造影响业务:需求难统一、全局策略难落地、无法顾及业务个性需求、ROI评估困难、人员能力参差不齐、治理操作依靠人、组织文化差异显著。
字节特色
- 规模大数据驱动:业务场景丰富,包括互娱、资讯、电商、企业服务等;数据驱动业务,业务强依赖数据,业务快速发展,快速响应业务需求。
- 业务自驱:每个业务单元自主进行数据治理,业务自决策自治,治理目标对齐、管理、跟进难度大,组织越复杂,数据治理难度越大。
二、数据治理思路
新型数据治理 - 分布式数据自治
- 治理收益、业务影响、执行效率:灵活的自治模式,适配性强,覆盖治理全链路。
- 业务自驱:沉淀各业务治理经验,提升治理效率,低门槛与算法推荐,业务自驱进行分析与诊断。
- 工具灵活:业务根据自身发展按需治理,周期短,见效快,治理目标对齐、实施、追踪、核算工具化,节省沟通成本,提升协作效率。
- 治理目标清晰:收益统计自动化,治理目标清晰,治理过程工具化。
三、技术架构演进
一站式治理方案
- 治理全景:资产视角、实施者视角、成本报告、质量分析、事故根因、价值分析、健康分SLA、治理场景等。
- 规划式流程:治理规划、资产诊断、结果推进、收益统计、消息催办等。
- 响应式流程:问题归因、问题分析、治理推进、SLA破线、数据质量报警等。
平台建设
- 治理全景健康分:资产概览、SLA大盘、存储大盘、计算大盘、报警大盘等。
- 规则丰富:存储、计算、质量、报警四大维度,50+规则,生命周期管理,统计类规则与挖掘类规则。
- 动线完整:任务运维、元数据管理、数据治理、数据质量等。
- 收益准确:行为埋点、事件上报、关联计算等。
四、未来展望
自定义指标与方案
- 自定义健康分:支持自定义组织(团队)。
- 自定义治理规则:灵活维度组合条件。
- 业务打通:以业务视角看治理问题,增加业务属性。
智能化能力
- 挖掘数据价值:推荐动态阈值监控、相似任务识别等。
- 自定义算法包:支持标准元数据、算法在线计算能力。
- 增强型数据治理:支持自定义指标、自定义方案、业务打通、智能化提效。
总结
字节跳动通过灵活的自治模式和强大的技术支撑,实现了高效的数据治理,涵盖业务自驱、工具灵活、治理目标清晰等方面。未来,将继续深化自定义指标与方案,提升治理效果,并通过智能化能力进一步提高数据治理水平。