博睿数据 Bonree 数据治理 数据中台建设与能力提升策略 DATAGOVERNANCE Bonree 2024 博睿数据重磅发布 EXCELLENTCASES BonreeBonree 目CONTENTS Bonree 1.数据治理是什么 2.建设数据治理的背景 2.1.运维行业为什么要做数据治理? 2.2.运维行业数据治理时的主要痣点 3.数据中台和数据治理 3.1.数据中台如问帮助企业数据治理 3.2.如何提升企业数据治理能力 3.2.1.数据中台的建设思路 3.2.2.数据中台设计 CONTENTS 4.Bonree如何做数据治理 5.总结 Bonree 01数据治理是什么 数治洋即:DataGovernance 由于切入视角的不同,不同的机构和组织对效滤治在有不同的定义 国际数据管理协会 (DAMA) “数据治理足对数提淡产的管捍洁动行保权刀和控制.的 活动集合(规别、益控和执 行~ 国际数治理研究所 (DGI) “数起治理是一个道过一系划信急相关的还轻来实玩决半权和职云分工的系统,这些过程按照达感共识的卖型来执行,该模型措 述了准能根这什么信息,在←么时司和况一:用十么方法:来取计么动。 IS038508-1:2019标准 “指守数据竺理泛动的权沃宽定和校力的框架 02数据治理的背景 2.1.运维行业为什么要做数据治理 •提高数据质中 有即于们保数范的准饰烂,完整三数烂:为运维团提共可非的信息来源 提高数据安全 • 数批治理包名对数芯的保护妇安全管理,例如访问垫制、加密剂数芯备分 •提高数据一致性 运性三业泌及念多系统和三台,数据可能存在不一致性:数据治理方动于整合栏标汽化数据, 销怀数批在名个系统剂平台之间的一款: •文持决策 仁动丁为管型层提供高质工、准确的数起:以支持更好的法策。 •提高运维水平 涵过对数据进行治坦:可以发现潜在门题、优化运维流轻、担高资源利用率:以而起高整体运维水平 2.2.运维行业数据治理时的主要痛点 •数据质量问题 出二系统众多、数居来源复杂,数据辰中可能存有间额,女不准确、不完登、不一致等、这 给数治理一来了非战,声要按入大±对问和结小进行效芯洁洗、验证和整合。 •数据分散和碎片化 数担往往分故在不同的效出库、文件系统和应开中 •技术与工具选择 市场上有众多的数据汽理工具和技术可洗泽,企业完要评仕和洗泽合适的技术和工具,这可能会耗费很多时可和运力 •缺乏数据治理经验 许多企业在数提治埋方中缺乏经验,可能大知道如没计和实施有效数据治坦资略和流栏 •持续改进和优化 勇和技术,以便及时豆新自己的方法和资略 03数据中台和数据治理 3.1.数据中台如何帮助企业数据治理 在数宁化转型浪潮中,为了应对信息马挑战,企业迫切盖费构建一个互送互道的平台来打驶举率,促进信忌高效流温,数抵中台作为企业数抵治挥的核心架构,可以实规数据的统一存储、处理和管理,为业务部门提供高质量的数据服务,成为推动企业持续、 高效发展的重要引率。 D数据整合 数据台帮助登合名种系统、米源、格式的数据,长供统一的存诺和管理,有助干这种碎片化可题的解决,提高数批的可能知一欧性:以而提高数批的质上 2)数据质埋 数范中台能够是兴一系列的教范质量管理,妇效芯洁洗、延也去主、数质量汉和修复等,归保效记的准肺性、完整性和数性 3)元数据管理 数据中台可以逆立元数揭的管理体系,记录数据的定文、来源关联,帮功提后数据的可理新性,方恒数恬检索和使用 ④数据安全与合规 数批中台能提供一系列安全限合现管理,包括数担密和防控,保障数拟的安全和隐私 (5)数据分析与可视化 数据中台提供的数据股务能够支持可视化分杆工具孜数,从而实现实时分研报表牛成和数据检崛等坊能,时发现落在问或,优化运继的流程和提户运继水平 (6)标准化与最佳实践 确侣数据治理的一致性和观范性,提产数据治理效果,降促运维风险 3.2.如何提升企业数据治理能力 3.2.1.数据中台的建设思路 1.建设统一的可观测平台 思路1集合各个系统,打通前端的登录,快述整合搭建统一的平台优点:时快,建没成木们 不足:只表五统一,在变构、数据、存情方五没有实现打通,后期维护失代或云高 从业务、数据、架构等方面全部新规划调整,整合各个团队骨干从 0到1建设统一的可观测平台 优点:将数揭做五完降的流卫,夯卖数据品出,为后续的信忘整合、特升关联、业务洞察等提供强有刀的支撑 不足:叫门花费长、廷设成六宝, 2.利用数据中台建设BonreeONE •业务梳理: 核场景包拆ITOM统一监控、AIOP背能运维、BizO3s业务运含,DcVOps效能✲升ScOps安伞运红 •技术架构设计原则: 一体化解决方案:实环领域注索2分层设计:任制合、拓件化、存储可替换 3高并发:多活、云热点、分布 4高性能:换批、乐箱、织码、预处三 5高可用 •平台架构 RRRE OxeFT Srathgt 3.2.2.数据中台设计 设计目标: 全数据统一必埋、对业务侧产敏底晨、大编码应对数据处埋&注摸、提于业务送述度、多源 欲据矫一查询。 多源异构数据在用市场 数据三台的能力乍后教据必理知效据服头。 数拐处理 OneETL能够支持翰入、转换、晰、输出冬和子,可时支持多租户: 司时,博咨数对"ETL傲了可规化编排方式,使其能处划数据支能傲纠科!间脂裹, 而数据丰台的另一块核心业务:数据务,.由Ona5ervice叉卖现,能够✲供统一的BQL(业 现在可一个结果集中:、数治理(斌过指标的元数指右函指标美些与继度然后选一通过指 标查沟;根出流呈声况,在流量高率时降级处理数扣;提供多租户)等。 OneETL ate3 seMansgper 0AGippisinsNonforLAN ETL-Worea Tsarslom manita trapsho CnHFTI QnC上IL关键能力 1.使门拍低,能形实可视化拖波,消划DAG实现算子灵活斯 2,瓜性好,旨牛化算子设计能够实玩销入,计算,输出算子面亿亡层 3.县各志、J51半结构化数处理能力,支持获套结构的节当处理 4.部署成本低,与park/fink村比,自D.4G并子的部署成本节约半 QneETL设计目标 1.无综码-无需编码,拖立挖支麦 2.轻便简洁-不需十发参与,荷单易穿:依熟少 3资源消长少资源消耗极少 4.指件化扩展-何算子支持排件化,用户可白行开发算子 5.面自实时数据处捏-支时深度嵌套复杂json,寸序文本 ETL的两个节点:ETL-Manager和ETL-Worker <-9 (FTI-Manager行过涅) regrise 3 [ETL-Worker的行J; OneETL的三个关键技术点技术点一:任务编排DAG DAG(Cirectedacyclicraph:有向无I环区):如是一个有白图元法以早个顶点山发经过 若干条边回到该点,则这个图是一个有向无环图 原时:单编入,多编出,约,暂不女换 •原则:单缔物多输出 •特点: 1.易于维护 DAG可以洁叶池-首述ETL中的各任务之市的依机关系,生整个工作流程易干理留和统护。 2.灵治生强 DAG可以通添加或删除节点宋扩展或缩小工作流程,从而满足不同的需求, 3.可年用性高 由于DAG表为一组任多及三依赖关系,因此可以等三安制井压用于不同的教据,从而实 现高可车用性: 4.易于并行行 DAG十的任务之间存在依欢关系,旧足没有循不依赖,因此可以辑松地进行井行执行,提高处理效率, 技术点二:OneETLSPI插件 ServiceProvider Service Consumer ServiceProviderInterfaceAPI Service Consumer ServiceProvider •JavaSPI土要包含四个方面 1.Service 凯开放情口类;可访问末些特持定✁应丑程序功能或功能 2.ServiceProviderInterfare 准为proxy或老是enpoint✁接口或者象类 3.ServiceProvider SPl✁持定实现:SeivicePravicer中可以包含一个或者多个实玩类 2.ServiceLoader SPl✁核心是SeryccLoace案,5civiceLoadcr可以发现和加美实现作用:它使用上卜文类路径来 定信servicoProvider实现并将其放在接存中: •SPI✁优点 1松提合 能较好地解得,并在程序运行时达到插件替次✁日✁。 2.5展性强 开发人员射不不效变代码✁同时轻检广应应用程序功能。 3.遂化 于发人点只光要开款标准✁接口:从一定程质二避免程序✁复杂性 ,•SPI去pom依植优化 引入性件宝然可以培列灵活性,但托挂件包列m中:兽加-击件时需要修改坐标: 不方,因此芸做SPI去pom依顽优仁 l.定义插件类加微群PusinclassLoeder:消过定义指定✁类加载器加就推件、采用线认类加 2.定义插件发现类PllgDisccvery,涵过jar或当指定✁pgm文件用来发现托件. 3.载搭定✁指件,加遇PlL盒1DiscCVcry发现插件 4,定义打包逆拍,在工程打包✁时候通过指定打包方式将-面件打包至指定日录供 Pluginscovery号括件 1rtilsrtit>2 技术点三:OneETL资源管理 资源管理目标 1,刘则线程资源进行仁效告理 2.实现资源共亨及独享提于数指集成隐定性及提于资源利口率 3.实项公有下务资源共字,私有仟务资源驻占,并支持共字及独字可划款 nwwln? Wutiv1 e-HI 数据服务 Q1eService:提偿一站式多恶数据✲务,通过3QL提偿统查询 APPS OneService-client ConnectionPool MetaDeta Registration Datalngest BPL(SQL) OneService ProcessMetaDataModel Parse元数据定义元数据建模metric DispatchCalculalion元数漏规范欧据消理10g trace Manager 相户行为监控性能监控数器测管理流控降圾event 资源监控用量监控祖户管理entity Zeus/CK/ES/Neoula Qne.Service 关键能力 1.可通划BPL否询,面向悦型而不面向存诺,存诺✁替决不影-自务例✁生用 实现跨源✁当标计算知跨业实平台,用户侧无需号点指标✁在储方式知位当 2. 3.能多关疾GMB进行模型计算 二、性能提升 1.司表司条件流包可合升为一条语司 支别等子&过速条件✁下护 2. 3.数起口并,估算荣个SQL节子(如Filter、lcin、Sot;✁代价:送取优第略来执行 数据服务关键处理流程 应用层 数运能力服务层 引学sHxe 数职接人层 1.应月方通以BQL查询OneService 2.心leservice查们元数提进行语法新标 3.解栏完成后法行SQ优化 4.生成SQL执行划片,发放给执行模 5.扶行搭块进,滑包改到个同存筛引孕风行 6.技行完维吴汁行再次算,并向应结果。 04Bonree如何做数据治理 Bonree做数据治理✁实操七步骤 1.明确治理目标和范围 月际: 将零散✁名个系统效据进行统一管理、并能应用至数据分折、告、和根因分折、并能应用至后续广 思✁能 主要范国: 系统;sdk、server、bowser、MF: 数批:指标、讨用法、公后、率个 2.搭建数据中台其础架构 恨据治理目标利荣围,挡注数据中台✁础架构 OrsETL [Srstignt 3.数接入一整合 将分散在不同系统剂平台✁效起接入到效起中台:进行欲存情知管坦。追过效规整合动法流:消除互复、错误和个一致✁数据,高效据质量。 Ordiringrstio时演平台 DsisVs XM kaka[puhar actonodo xeuO 4.元数据管理 在额据中